大數(shù)據(jù)技術(shù)原理與應(yīng)用:概念、存儲、處理、分析與應(yīng)用 版權(quán)信息
- ISBN:9787115544056
- 條形碼:9787115544056 ; 978-7-115-54405-6
- 裝幀:一般膠版紙
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>>
大數(shù)據(jù)技術(shù)原理與應(yīng)用:概念、存儲、處理、分析與應(yīng)用 本書特色
1.大數(shù)據(jù)教學(xué)名師之作;2.提供豐富的配套資源:建設(shè)了高校大數(shù)據(jù)課程公共服務(wù)平臺(http://dblab.xmu.edu.cn/post/bigdata-teaching- platform/),為教師教學(xué)和學(xué)生學(xué)習(xí)大數(shù)據(jù)課程提供包括教學(xué)大綱、講義PPT、學(xué)習(xí)指南、備課指南、實驗指南、上機習(xí)題、授課視頻、技術(shù)資料等全方位、一站式免費服務(wù),平臺每年訪問量超過200萬次,累計訪問量超過750萬次
大數(shù)據(jù)技術(shù)原理與應(yīng)用:概念、存儲、處理、分析與應(yīng)用 內(nèi)容簡介
本書系統(tǒng)介紹了大數(shù)據(jù)的相關(guān)知識,分為大數(shù)據(jù)基礎(chǔ)篇、大數(shù)據(jù)存儲與管理篇、大數(shù)據(jù)處理與分析篇、大數(shù)據(jù)應(yīng)用篇。全書共17章,內(nèi)容包含大數(shù)據(jù)的基本概念、大數(shù)據(jù)處理架構(gòu)Hadoop、分布式文件系統(tǒng)HDFS、分布式數(shù)據(jù)庫HBase、NoSQL數(shù)據(jù)庫、云數(shù)據(jù)庫、MapReduce、數(shù)據(jù)倉庫Hive、Spark、流計算、Flink、圖計算、數(shù)據(jù)可視化以及大數(shù)據(jù)在互聯(lián)網(wǎng)、生物醫(yī)學(xué)領(lǐng)域和其他行業(yè)的應(yīng)用。本書在Hadoop、HDFS、HBase、MapReduce、Hive、Spark和Flink等重要章節(jié)安排了入門級的實踐操作,以便讀者更好地學(xué)習(xí)和掌握大數(shù)據(jù)關(guān)鍵技術(shù)。
大數(shù)據(jù)技術(shù)原理與應(yīng)用:概念、存儲、處理、分析與應(yīng)用 目錄
**章大數(shù)據(jù)概述
1.pan style="font-family:宋體">大數(shù)據(jù)時代
1.1.pan style="font-family:宋體">第三次信息化浪潮
1.1.2信息科技為大數(shù)據(jù)時代提供技術(shù)
支撐
1.1.3數(shù)據(jù)產(chǎn)生方式的變革促成大數(shù)據(jù)
時代的來臨
1.1.4大數(shù)據(jù)的發(fā)展歷程
1.2大數(shù)據(jù)的概念
1.2.pan style="font-family:宋體">數(shù)據(jù)量大
1.2.2數(shù)據(jù)類型繁多·
1.2.3處理速度快
1.2.4價值密度低·
1.3大數(shù)據(jù)的影響
1.3.pan style="font-family:宋體">大數(shù)據(jù)對科學(xué)研究的影響
1.3.2大數(shù)據(jù)對思維方式的影響
1.3.3大數(shù)據(jù)對社會發(fā)展的影響
1.3.4大數(shù)據(jù)對就業(yè)市場的影響
1.3.5大數(shù)據(jù)對人才培養(yǎng)的影響
1.4大數(shù)據(jù)的應(yīng)用
1.5大數(shù)據(jù)關(guān)鍵技術(shù)·
1.6大數(shù)據(jù)計算模式
1.6.1 批處理計算·
1.6.2 流計算
1.6.3圖計算
1.6.4查詢分析計算
1.7大數(shù)據(jù)產(chǎn)業(yè)
1.8大數(shù)據(jù)與云計算、物聯(lián)網(wǎng)
1.8.1 云計算
1.8.2 物聯(lián)網(wǎng)
1.8.3大數(shù)據(jù)與云計算、物聯(lián)網(wǎng)的
關(guān)系
1.9本章小結(jié)
1.pan style="font-family:宋體">/span>
第2章 大數(shù)據(jù)處理架構(gòu)Hadoop29
2.pan style="font-family:宋體">概述
2.1.1 Hadoop簡介
2.1.2Hadoop的發(fā)展簡史
2.1.3Hadoop的特性
2.1.4 Hadoop的應(yīng)用現(xiàn)狀
2.1.5Hadoop的版本
2.2Hadoop生態(tài)系統(tǒng)·
2.2.1 HDFS.
2.2.2 HBase
2.2.3 MapReduce
2.2.4 Hive·
2.2.5 Pig
2.2.6 Mahout·
2.2.7 ZooKeeper
2.2.8 Flume·
2.2.9 Sqoop·
2.2.10 Ambari
2.3Hadoop的安裝與使用
2.3.1 創(chuàng)建Hadoop用戶
2.3.2 更新apt和安裝Vim編輯器
2.3.3安裝SSH和配置SSH無密碼
登錄
2.3.4安裝Java環(huán)境·
2.3.5安裝單機Hadoop
2.3.6 Hadoop偽分布式安裝
2.4本章小結(jié)
2.5
實驗pan>熟悉常用的Linux作和Hadoop
作
第二篇 大數(shù)據(jù)存儲與管理
第3章 分布式文件系統(tǒng)HDFS
3.pan style="font-family:宋體">分布式文件系統(tǒng)
3.1.pan style="font-family:宋體">計算機集群結(jié)構(gòu)
3.1.2分布式文件系統(tǒng)的結(jié)構(gòu)
3.1.3分布式文件系統(tǒng)的設(shè)計需求
3.2HDFS簡介·
3.3 HDFS的相關(guān)概念
3.3.1 塊
3.3.2名稱節(jié)點和數(shù)據(jù)節(jié)點
3.3.3第二名稱節(jié)點
3.4HDFS體系結(jié)構(gòu)
3.4.1 概述
3.4.2 HDFS命名空間管理
3.4.3通信協(xié)議
3.4.4客戶端
3.4.5HDFS體系結(jié)構(gòu)的局限性
3.5HDFS的存儲原理
3.5.pan style="font-family:宋體">數(shù)據(jù)的冗余存儲
3.5.2數(shù)據(jù)存取策略
3.5.3數(shù)據(jù)錯誤與恢復(fù)
3.6HDFS的數(shù)據(jù)讀寫過程
3.6.pan style="font-family:宋體">讀數(shù)據(jù)的過程
3.6.2寫數(shù)據(jù)的過程
3.7 HDFS編程實踐·
3.7.1HDFS常用命令
3.7.2 HDFS的Web頁面
3.7.3 HDFS 常用Java API 及應(yīng)用實例
3.8本章小結(jié)
3.9 /span>
實驗2熟悉常用的HDFS作
第4章 分布式數(shù)據(jù)庫HBase
4.1 概述
4.1.1 從BigTable 說起
4.1.2HBase簡介·
4.1.3 HBase與傳統(tǒng)關(guān)系數(shù)據(jù)庫的對比
分析
4.2 HBase 訪問接口
4.3HBase 數(shù)據(jù)模型
4.3.1 數(shù)據(jù)模型概述
4.3.2數(shù)據(jù)模型的相關(guān)概念
4.3.3數(shù)據(jù)坐標(biāo)
4.3.4概念視圖
4.3.5物理視圖
4.3.6面向列的存儲
4.4 HBase的實現(xiàn)原理
4.4.1 HBase
4.4.2 表和Region
4.4.3Region 的定位
4.5 HBase 運行機制
4.5.1HBase系統(tǒng)架構(gòu)
4.5.2 Region服務(wù)器的工作原理
4.5.3Store的工作原理
4.5.4HLog的工作原理
4.6 HBase編程實踐
4.6.1 HBase 常用的 Shell 命令
4.6.2 HBase常用的Java API及應(yīng)用實例
4.7本章小結(jié)
4.8/span>
實驗3熟悉常用的HBase 作
第5章 NoSQL數(shù)據(jù)庫
5.1NoSOL簡介
5.2 NoSQL興起的原因
5.2.pan style="font-family:宋體">關(guān)系數(shù)據(jù)庫無法滿足Web2.0的
需求
5.2.2 關(guān)系數(shù)據(jù)庫的關(guān)鍵特性在Web 2.0
時代成為“雞肋”
5.3 NoSQL與關(guān)系數(shù)據(jù)庫的比較
5.4 NoSQL的四大類型·
5.4.pan style="font-family:宋體">鍵值數(shù)據(jù)庫·
5.4.2列族數(shù)據(jù)庫·
5.4.3文檔數(shù)據(jù)庫·
5.4.4 圖數(shù)據(jù)庫
5.5 NoSQL的三大基石
5.5.1 CAP
5.5.2 BASE
5.5.3*終一致性
5.6 從NoSQL到NewSQL數(shù)據(jù)庫
5.7本章小結(jié)
5.8 /span>
實驗4 NoSQL和關(guān)系數(shù)據(jù)庫的作比較
第6章云數(shù)據(jù)庫
6.pan style="font-family:宋體">云數(shù)據(jù)庫概述
6.1.pan style="font-family:宋體">云計算是云數(shù)據(jù)庫興起的基礎(chǔ)
6.1.2云數(shù)據(jù)庫的概念·
6.1.3 云數(shù)據(jù)庫的特性
6.1.4云數(shù)據(jù)庫是個性化數(shù)據(jù)存儲需求
的理想選擇
6.1.5云數(shù)據(jù)庫與其他數(shù)據(jù)庫的關(guān)系
6.2云數(shù)據(jù)庫產(chǎn)品
6.2.1 云數(shù)據(jù)庫廠商概述
6.2.2 Amazon的云數(shù)據(jù)庫產(chǎn)品
6.2.3 Google的云數(shù)據(jù)庫產(chǎn)品
6.2.4 Microsoft的云數(shù)據(jù)庫產(chǎn)品
6.2.5其他云數(shù)據(jù)庫產(chǎn)品
6.3云數(shù)據(jù)庫系統(tǒng)架構(gòu)·
6.3.1UMP系統(tǒng)概述
6.3.2UMP系統(tǒng)架構(gòu)
6.3.3UMP能
6.4本章小結(jié)
6.5 /span>
第三篇大數(shù)據(jù)處理與分析
第7章 MapReduce
7.1 概述
7.1.pan style="font-family:宋體">分布式并行編程
7.1.2 MapReduce模型簡介
7.1.3 Map 和 Reduce 函數(shù)
7.2 MapReduce的工作流程
7.2.pan style="font-family:宋體">工作流程概述
7.2.2 MapReduce 的各個執(zhí)行階段
7.2.3 Shuffle過程詳解
7.3 實例分析:WordCount
7.3.1WordCount的程序任務(wù)
7.3.2 WordCount的設(shè)計思路
7.3.3 WordCount的具體執(zhí)行過程
7.3.4 一個 WordCount 執(zhí)行過程的
實例
7.4 MapReduce 的具體應(yīng)用
7.4.1 MapReduce在關(guān)系代數(shù)運算中的
應(yīng)用
7.4.2分組與聚合運算
7.4.3矩陣-向量乘法
7.4.4矩陣乘法·
7.5 MapReduce編程實踐
7.5.pan style="font-family:宋體">任務(wù)要求
7.5.2編寫Map處理邏輯
7.5.3 編寫 Reduce 處理邏輯
7.5.4 編寫main方法
7.5.5編譯代碼以及運行程序
7.6本章小結(jié)·
7.7/span>
實驗5 MapReduce初級編程實踐
第8章 Hadoop再探討
8.1Hadoop的優(yōu)化與發(fā)展
8.1.1 Hadoop的局限與不足
8.1.2 針對Hadoop的與提升
8.2HDFS 2.0的新特性
8.2.1 HDFS HA
8.2.2 HDFS聯(lián)邦
8.3新一代資源管理調(diào)度框架YARN
8.3.1 MapReduce 1.0的缺陷
8.3.2YARN設(shè)計思路
……
11.3.1 應(yīng)用場景pan>:實時分析
11.3.2應(yīng)用場景2:實時交通
11.4 開源流計算框架Storm
11.4.1 Storm簡介
11.4.2 Storm的特點
11.4.3Storm的設(shè)計思想
11.4.4 Storm的框架設(shè)計
11.4.5 Storm實例
11.5 Spark Streaming
11.5.1 Spark Streaming 設(shè)計
11.5.2 Spark Streaming 與Storm 的
對比
11.6本章小結(jié)
11.7/span>
第12章 Flink
12.1 Flink簡介
12.2 為什么選擇Flink
12.2.pan style="font-family:宋體">傳統(tǒng)數(shù)據(jù)處理架構(gòu)
12.2.2 大數(shù)據(jù)Lambda架構(gòu) 237
12.2.3
流處理架構(gòu)
12.2.4 Flink是理想的流計算框架239
12.2.5Flink的優(yōu)勢
12.3 Flink 應(yīng)用場景
12.3.pan style="font-family:宋體">事件驅(qū)動型應(yīng)用
12.3.2數(shù)據(jù)分析應(yīng)用
12.3.3數(shù)據(jù)流水線應(yīng)用
12.4Flink技術(shù)棧
12.5Flink體系架構(gòu)
12.6Flink編程模型·
12.7Flink編程實踐
12.7.1 安裝Flink
12.7.2編程實現(xiàn)WordCount程序247
12.8本章小結(jié)
12.9 /span>
實驗8 Flink初級編程實踐
第13章圖計算
13.pan style="font-family:宋體">圖計算簡介
13.1.pan style="font-family:宋體">傳統(tǒng)圖計算解決方案的不足
之處
13.1.2通用圖計算軟件
13.2 Pregel 簡介
13.3 Pregel圖計算模型
13.3.pan style="font-family:宋體">有向圖和頂點
13.3.2頂點之間的消息傳遞 255
13.3.3 Pregel的計算過程256
13.3.4 Pregel 計算過程的實例257
13.4 Pregel的C++ API
13.4.pan style="font-family:宋體">消息傳遞機制
13.4.2 Combiner·
13.4.3 Aggregator·
13.4.4 拓?fù)涓淖?13.4.5輸入和輸出
13.5 Pregel的體系結(jié)構(gòu)
13.5.1Pregel的執(zhí)行過程
13.5.2 容錯性
13.5.3 Worker·
13.5.4 Master
13.5.5 Aggregator
13.6 Pregel的應(yīng)用實例
13.6.pan style="font-family:宋體">單源*短路徑
13.6.2二分匹配
13.7 Pregel 和MapReduce實現(xiàn)PageRank
算法的對比
13.7.1PageRank算法
13.7.2 PageRank算法在Pregel 中的
實現(xiàn)
13.7.3 PageRank 算法在 MapReduce
中的實現(xiàn)
13.7.4 PageRank算法在 Pregel和
MapReduce 中實現(xiàn)的比較
13.8本章小結(jié)
13.9/span>
.
第14章數(shù)據(jù)可視化
14.pan style="font-family:宋體">可視化概述
14.1.pan style="font-family:宋體">什么是數(shù)據(jù)可視化
14.1.2可視化的發(fā)展歷程
14.1.3可視化的重要作用
14.2可視化工具
14.2.pan style="font-family:宋體">入門級工具
14.2.2信息圖表工具
14.2.3 地圖工具
14.2.4時間線工具
14.2.5高級分析工具
14.3可視化典型案例
14.3.pan style="font-family:宋體">全球黑客活動
14.3.2互聯(lián)網(wǎng)地圖
14.3.3 編程語言之間的影響力關(guān)系
14.3.4國家健康與財富之間的
關(guān)系
14.3.5 3D可視化互聯(lián)網(wǎng)地圖App
14.4本章小結(jié)
14.5/span>
第四篇大數(shù)據(jù)應(yīng)用
第15章 大數(shù)據(jù)在互聯(lián)網(wǎng)領(lǐng)域的
應(yīng)用
15.pan style="font-family:宋體">推薦系統(tǒng)概述
15.1.pan style="font-family:宋體">什么是推薦系統(tǒng)
15.1.2長尾理論
15.1.3 推薦方法
15.1.4推薦系統(tǒng)模型
15.1.5推薦系統(tǒng)的應(yīng)用
15.2 協(xié)同過濾
15.2.pan style="font-family:宋體">基于用戶的協(xié)同過濾
基于物品的協(xié)同過濾
15.2.3 UserCF算法和ItemCF算法的
對比
15.3協(xié)同過濾實踐
15.3.pan style="font-family:宋體">實踐背景
15.3.2數(shù)據(jù)處理
15.3.3 計算相似度矩陣.
15.3.4計算推薦結(jié)果.
15.3.5展示推薦結(jié)果
15.4本章小結(jié)
15.5/span>
第16章大數(shù)據(jù)在生物醫(yī)學(xué)
領(lǐng)域的應(yīng)用
16.1 流行病預(yù)測
16.1.pan style="font-family:宋體">傳統(tǒng)流行病預(yù)測機制的不足
16.1.2基于大數(shù)據(jù)的流行病預(yù)測
16.1.3基于大數(shù)據(jù)的流行病預(yù)測的
重要作用
16.2智慧
16.3 生物信息學(xué)
16.4案例:基于大數(shù)據(jù)的綜合健康服務(wù)
16.4.pan style="font-family:宋體"臺概述
16.4.2
16.4.3
16.4.4
16.5本章小結(jié)
16.6/span>
第17章 大數(shù)據(jù)的其他應(yīng)用306
7.pan style="font-family:宋體">大數(shù)據(jù)在物流領(lǐng)域中的應(yīng)用306
17.1.pan style="font-family:宋體">智能物流的概念
17.1.2智能物流的作用
17.1.3 智能物流的應(yīng)用
17.1.4 大數(shù)據(jù)是智能物流的關(guān)鍵
17.1.5 中國智能物流骨干網(wǎng)——菜鳥
17.2大數(shù)據(jù)在城市管理中的應(yīng)用
17.2.1 智能交通
17.2.2 環(huán)保監(jiān)測
17.2.3城市規(guī)劃
17.2.4 安防領(lǐng)域
17.3大數(shù)據(jù)在金融行業(yè)中的應(yīng)用
17.3.1 高頻交易
17.3.2市場情緒分析
17.3.3信貸風(fēng)險分析
17.4大數(shù)據(jù)在汽車行業(yè)中的應(yīng)用
17.5大數(shù)據(jù)在行業(yè)中的應(yīng)用
17.5.pan style="font-family:宋體">發(fā)現(xiàn)關(guān)聯(lián)購買行為
17.5.2客戶群體細(xì)分
17.5.3 供應(yīng)鏈管理
17.6大數(shù)據(jù)在餐飲行業(yè)中的應(yīng)用
17.6.pan style="font-family:宋體">餐飲行業(yè)擁抱大數(shù)據(jù)
17.6.2 餐飲
17.7大數(shù)據(jù)在電信行業(yè)中的應(yīng)用
17.8大數(shù)據(jù)在能源行業(yè)中的應(yīng)用
17.9大數(shù)據(jù)在體育和娛樂領(lǐng)域中的
應(yīng)用·
17.9.1 訓(xùn)練球隊
17.9.2 投拍影視作品
17.9.3預(yù)測比賽結(jié)果
17.10 大數(shù)據(jù)在領(lǐng)域中的應(yīng)用
17.10.pan style="font-family:宋體">大數(shù)據(jù)與國家·
17.10.2應(yīng)用大數(shù)據(jù)技術(shù)防御網(wǎng)絡(luò)
攻擊
17.10.3警察應(yīng)用大數(shù)據(jù)工具
犯罪
17.pan style="font-family:宋體">大數(shù)據(jù)在政府領(lǐng)域中的應(yīng)用
17.pan style="font-family:宋體">大數(shù)據(jù)在日常生活中的應(yīng)用
17.pan style="font-family:宋體">本章小結(jié)
17.pan style="font-family:宋體">/span>
參考文獻(xiàn)
展開全部
大數(shù)據(jù)技術(shù)原理與應(yīng)用:概念、存儲、處理、分析與應(yīng)用 作者簡介
林子雨(1978-),男,博士,國內(nèi)高校知名大數(shù)據(jù)教師,廈門大學(xué)計算機科學(xué)系副教授,廈門大學(xué)云計算與大數(shù)據(jù)研究中心創(chuàng)始成員,廈門大學(xué)數(shù)據(jù)庫實驗室負(fù)責(zé)人,中國計算機學(xué)會數(shù)據(jù)庫專委會委員,中國計算機學(xué)會信息系統(tǒng)專委會委員,中國高校**“數(shù)字教師”提出者和建設(shè)者。2013年開始在廈門大學(xué)開設(shè)大數(shù)據(jù)課程,建設(shè)了國內(nèi)高校**大數(shù)據(jù)課程公共服務(wù)平臺,平臺累計網(wǎng)絡(luò)訪問量超過700萬次,成為全國高校大數(shù)據(jù)教學(xué)****,并榮獲“2018年福建省教學(xué)成果二等獎”,主持的課程《大數(shù)據(jù)技術(shù)原理與應(yīng)用》獲評“2018年國家精品在線開放課程”。主講課程:《大數(shù)據(jù)技術(shù)原理與應(yīng)用》《大數(shù)據(jù)處理技術(shù)》《大數(shù)據(jù)導(dǎo)論》。個人主頁:http://dblab.xmu.edu.cn/post/linziyu。E-mail: ziyulin@xmu.edu.cn。數(shù)據(jù)庫實驗室網(wǎng)站:http://dblab.xmu.edu.cn。建設(shè)了高校大數(shù)據(jù)課程公共服務(wù)平臺(http://dblab.xmu.edu.cn/post/bigdata-teaching- platform/),為教師教學(xué)和學(xué)生學(xué)習(xí)大數(shù)據(jù)課程提供包括教學(xué)大綱、講義PPT、學(xué)習(xí)指南、備課指南、實驗指南、上機習(xí)題、授課視頻、技術(shù)資料等全方位、一站式免費服務(wù),平臺每年訪問量超過200萬次,累計訪問量超過750萬次,同時提供面向高校的大數(shù)據(jù)實驗平臺建設(shè)方案和大數(shù)據(jù)課程師資培訓(xùn)服務(wù)。