掃一掃
關注中圖網
官方微博
本類五星書更多>
-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
大數據分析與計算 版權信息
- ISBN:9787302485865
- 條形碼:9787302485865 ; 978-7-302-48586-5
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>>
大數據分析與計算 本書特色
大數據應用已成為行業熱點和產業發展新增長點,數據科學與計算技術也是*的前沿領域,其中,大數據計算分析提供了核心的技術支撐。本書從大數據計算系統的三個層次對數據模型、處理算法、計算模型與架構、開發技術標準等內容進行了綜合性的介紹,重點闡述了各類數據分析算法和MapReduce,圖并行計算,交互式處理,流計算,內存計算等計算架構。本書適合作為數據科學與大數據計算技術、計算機科學與技術、互聯網應用系統、物聯網工程等專業相關課程的教材。
大數據分析與計算 內容簡介
1)對大數據計算的標準、模型、計算架構、開發技術體系做了一個較完整的論述和總結,適宜于作為計算機和軟件工程專業高年級課程或研究生課程的教材; 2)本書也對大數據計算架構和開發平臺及技術進行了論述,給出了相關領域的工程案例,也可作為IT技術人士的專業參考書。
大數據分析與計算 目錄
目錄
第1章緒論
1.1數據與數據科學
1.2大數據概念
1.3大數據技術特征
參考文獻
習題
第2章大數據計算體系
2.1大數據計算架構
2.2數據存儲系統
2.2.1數據清洗與建模
2.2.2分布式文件系統
2.2.3NoSQL數據庫
2.2.4統一數據訪問接口
2.3數據處理平臺
2.3.1數據分析算法
2.3.2計算處理模型
2.3.3計算平臺與引擎
2.4數據應用系統
2.4.1大數據應用領域
2.4.2大數據解決方案
參考文獻
習題
第3章大數據標準與模式
3.1大數據標準體系
3.2大數據計算模式
參考文獻
習題
第4章數據采集方法
4.1系統日志采集
4.1.1日志采集的目的
4.1.2日志采集過程
4.2網絡數據采集
4.2.1網絡爬蟲工作原理
4.2.2網頁搜索策略
4.2.3網頁分析算法
4.2.4網絡爬蟲框架
4.3數據采集接口
參考文獻
習題
第5章數據清洗與規約方法
5.1數據預處理研究現狀
5.1.1數據清洗的研究現狀
5.1.2數據規約的研究現狀
5.2數據質量問題分類
5.2.1單數據源的問題
5.2.2多數據源的問題
5.3數據清洗技術
5.3.1重復記錄清洗
5.3.2消除噪聲數據
5.3.3缺失值清洗
5.4數據歸約
5.4.1維歸約
5.4.2屬性選擇
5.4.3離散化方法
5.5數據清洗工具
參考文獻
習題
第6章數據分析算法
6.1C4.5算法
6.1.1算法描述
6.1.2屬性選擇度量
6.1.3其他特征
6.2k均值算法
6.3支持向量機
6.4Apriori算法
6.5EM算法
6.5.1案例: 估計k個高斯分布的均值
6.5.2EM算法步驟
6.6PageRank算法
6.6.1PageRank的核心思想
6.6.2PageRank的計算過程
6.7AdaBoost算法
6.7.1Boosting算法的發展歷史
6.7.2AdaBoost算法及其分析
6.8k鄰近算法
6.9樸素貝葉斯
6.9.1樸素貝葉斯分類器
6.9.2貝葉斯網絡
6.10分類回歸樹算法
6.10.1建立回歸樹
6.10.2剪枝過程
參考文獻
習題
第7章文本讀寫技術
7.1讀取文本文件
7.1.1讀取txt文件
7.1.2讀取csv文件
7.2寫入文本文件
7.3處理二進制數據
7.4數據庫的使用
7.4.1數據庫的連接
7.4.2執行SQL語句
7.4.3選擇和打印
7.4.4動態插入
7.4.5update操作
參考文獻
習題
第8章數據處理技術
8.1合并數據集
8.1.1索引上的合并
8.1.2軸向連接
8.1.3合并重疊數據
8.2數據轉換
8.2.1移除重復數據
8.2.2利用函數進行數據轉換
8.2.3替換值
8.2.4重命名軸索引
8.2.5離散化數據
8.2.6檢測異常值
8.2.7排列和隨機采樣
8.2.8啞變量
8.3字符串操作
8.3.1內置字符串方法
8.3.2正則表達式
8.3.3Pandas中矢量化的字符串函數
參考文獻
習題
第9章數據分析技術
9.1NumPy工具包
9.1.1創建數組
9.1.2打印數組
9.1.3基本運算
9.1.4索引、切片和迭代
9.1.5形狀操作
9.1.6復制和視圖
9.1.7NumPy實用技巧
9.2Pandas工具包
9.2.1Series
9.2.2DataFrame
9.3ScikitLearn工具包
9.3.1邏輯回歸
9.3.2樸素貝葉斯
9.3.3k*近鄰
9.3.4決策樹
9.3.5支持向量機
9.3.6優化算法參數
參考文獻
習題
第10章數據可視化技術
10.1Matplotlib繪圖
10.1.1Matplotlib API入門
10.1.2Figure和Subplot的畫圖方法
10.1.3調整Subplot周圍的間距
10.1.4顏色、標記和線型的設置
10.1.5刻度、標簽和圖例
10.2Mayavi2繪圖
10.2.1使用mlab快速繪圖
10.2.2Mayavi嵌入到界面中
10.3其他圖形化工具
參考文獻
習題
第11章Hadoop生態系統
11.1Hadoop系統架構
11.2HDFS分布式文件系統
11.2.1HDFS體系結構
11.2.2HDFS存儲結構
11.2.3數據容錯與恢復
11.2.4Hadoop/HDFS安裝
11.3分布式存儲架構
11.3.1HBase系統架構
11.3.2數據模型與存儲模式
11.3.3HBase數據讀寫
11.3.4數據倉庫工具Hive
11.3.5HBase安裝與配置
11.4HBase索引與檢索
11.4.1二次索引表機制
11.4.2二次索引技術方案
11.5資源管理與作業調度
11.5.1分布式協同管理組件ZooKeeper
11.5.2作業調度與工作流引擎Oozie
11.5.3集群資源管理框架YARN
參考文獻
習題
第12章MapReduce計算模型
12.1分布式并行計算系統
12.2MapReduce計算架構
12.3鍵值對與輸入格式
12.4映射與化簡
12.5應用編程接口
參考文獻
習題
第13章圖并行計算框架
13.1圖基本概念
13.2BSP模型
13.3Pregel圖計算引擎
13.4Hama開源框架
13.5應用編程接口
參考文獻
習題
第14章交互式計算模式
14.1數據模型
14.2存儲結構
14.3并行查詢
14.4開源實現
參考文獻
習題
第15章流計算系統
15.1流計算模型
15.2Storm計算架構
15.3工作機制實現
15.4Storm編程接口
參考文獻
習題
第16章內存計算模式
16.1分布式緩存體系
16.2內存數據庫
16.3內存云MemCloud
16.4Spark內存計算
參考文獻
習題
第17章基于醫療數據的臨床決策分析應用
17.1國內外研究現狀及發展動態分析
17.2技術路線和方案
參考文獻
習題
第18章基于醫保數據的預測分析應用
18.1數據準備階段
18.2模型變量選擇和轉換
18.2.1模型變量的選擇
18.2.2模型變量的轉換
18.2.3篩選模型變量
18.3建模過程
18.4模型效果
參考文獻
習題
第19章互聯網電商數據的分析應用
19.1電商流程管理分析
19.1.1行業背景與業務問題
19.1.2分析方法與過程
19.2用戶消費行為分析
19.2.1業務問題
19.2.2分析方法與過程
19.3送貨速度相關性分析
19.3.1業務問題
19.3.2分析方法與過程
19.4總結
參考文獻
習題
第20章金融和經濟數據的分析應用
20.1企業對創新經濟活動推動的影響分析
20.1.1案例背景
20.1.2分析方法與過程
20.2信貸風險模型評估
20.3中小能源型企業的信用評價分析
20.3.1案例背景
20.3.2分析方法與過程
20.3.3分析結果
參考文獻
習題
展開全部
書友推薦
- >
【精裝繪本】畫給孩子的中國神話
- >
經典常談
- >
推拿
- >
羅庸西南聯大授課錄
- >
有舍有得是人生
- >
名家帶你讀魯迅:朝花夕拾
- >
史學評論
- >
李白與唐代文化
本類暢銷