-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
大數據技術基礎 版權信息
- ISBN:9787563558780
- 條形碼:9787563558780 ; 978-7-5635-5878-0
- 裝幀:平裝-膠訂
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
大數據技術基礎 本書特色
本書圍繞大數據技術基礎,重點介紹了大數據存儲系統(分布式文件系統和NoSQL數據庫)、大數據處理框架(Hadoop的MapReduce、Spark及實時處理框架Storm和Flink)、大數據倉庫技術(Hive、Druid等)、大數據多維分析(Kylin)、大數據可視化技術和大數據綜合應用等,以及當今主流的大數據平臺構建技術和開源組件實踐知識,可以指導讀者全面、系統地掌握大數據各層的實現方案,開展各領域的大數據實踐。本書可作為計算機學科相關專業,特別是數據科學與大數據技術專業的教材。
大數據技術基礎 內容簡介
本書系統的介紹了大數據相關技術。通過介紹其基本原理和主要應用, 旨在構建大數據知識體系、闡明大數據基本原理、引導大數據基本實踐、介紹大數據相關應用。
大數據技術基礎 目錄
本章思維導圖1
1.1大數據簡介2
1.1.1大數據的發展歷程2
1.1.2大數據的定義與特征2
1.1.3大數據與傳統數據的區別3
1.2大數據平臺應具備的能力3
1.3大數據平臺架構5
1.4Hadoop生態系統8
1.5大數據應用10
1.5.1互聯網大數據應用10
1.5.2金融行業大數據應用10
1.5.3醫療行業大數據應用11
1.5.4智慧交通大數據應用11
本章課后習題12
本章參考文獻12
第2章大數據存儲——分布式文件系統及NoSQL數據庫14
本章思維導圖14
2.1分布式文件系統15
2.1.1HDFS相關概念15
2.1.2HDFS體系結構16
2.1.3HDFS存儲機制18
2.1.4HDFS讀/寫操作20
2.1.5HDFS數據導入21
2.2NoSQL數據庫22
2.2.1KeyValue模型22
2.2.2KeyDocument 模型23
2.2.3KeyColumn模型24
2.2.4圖模型25
2.3列族數據庫25
2.3.1列族數據庫簡介25
2.3.2HBase的基本原理26
2.3.3HBase的數據模型30
2.4鍵值數據庫33
2.4.1鍵值數據庫簡介33
2.4.2選擇鍵值數據庫的原因33
2.4.3Redis的數據結構簡介34
2.4.4Redis的數據持久化36
2.4.5Redis的數據復制37
2.5文檔數據庫38
2.5.1文檔數據庫簡介38
2.5.2MongoDB的數據類型39
2.5.3MongoDB的數據復制40
2.6圖數據庫42
2.6.1圖數據庫簡介42
2.6.2圖數據庫的優勢43
2.6.3Neo4j的基本元素與概念44
2.6.4Cypher簡介46
本章課后習題47
本章參考文獻47
第3章大數據處理——MapReduce處理框架48
本章思維導圖48
3.1MapReduce的發展背景49
3.2MapReduce框架50
3.3MapReduce的編程模型52
3.3.1MapReduce初析52
3.3.2MapReduce的運行機制57
3.3.3MapReduce的相關問題59
3.4MapReduce的集群調度60
3.4.1Hadoop1.x的傳統集群調度框架60
3.4.2Hadoop2.x的集群調度框架YARN61
3.4.3Hadoop作業調度器64
本章課后習題67
本章參考文獻67
第4章大數據處理——分布式內存處理框架Spark 68
本章思維導圖68
4.1Spark簡介69
4.1.1Spark介紹69
4.1.2提出Spark的原因70
4.1.3Spark中的關鍵術語70
4.1.4Spark的優點71
4.2Spark框架72
4.2.1Spark框架圖72
4.2.2Spark運行圖73
4.2.3Spark任務調度方法73
4.3RDD概念理解74
4.3.1RDD介紹74
4.3.2RDD的操作75
4.3.3RDD的存儲75
4.3.4RDD分區76
4.3.5RDD優先位置76
4.3.6RDD依賴關系76
4.4RDD操作78
4.4.1RDD創建78
4.4.2轉換操作78
4.4.3行動操作80
4.5Scala語言81
4.5.1Scala介紹81
4.5.2Scala基本語法82
4.5.3Scala編寫Spark示例86
4.6Spark SQL簡介86
4.6.1Spark SQL與Shark的對比86
4.6.2Spark SQL的優勢87
4.6.3Spark SQL生態87
4.7MLlib簡介88
4.7.1MLlib介紹88
4.7.2MLlib支持機器學習算法88
本章課后習題89
本章參考文獻89
第5章大數據處理——實時處理框架90
本章思維導圖90
5.1實時處理架構91
5.1.1基本概念91
5.1.2批量和流式計算92
5.1.3系統生態簡介92
5.2Storm框架93
5.2.1Storm的基本術語和概念93
5.2.2Storm特性及運行原理94
5.2.3消息的生命周期95
5.2.4消息的可靠性保障96
5.3Flume分布式日志收集98
5.3.1Flume的基本術語和概念98
5.3.2源99
5.3.3通道100
5.3.4接收器100
5.4Kafka分布式消息隊列101
5.4.1Kafka的基本術語和概念102
5.4.2生產者103
5.4.3消費者104
5.4.4數據傳遞的可靠性保障105
5.5Spark Streaming框架107
5.5.1Spark Streaming架構107
5.5.2輸入數據源108
5.5.3DStream的轉換操作108
5.5.4輸出存儲110
5.5.5容錯機制110
5.6Flink框架112
5.6.1Flink架構112
5.6.2Client112
5.6.3JobManager113
5.6.4TaskManager114
本章課后習題115
本章參考文獻115
第6章大數據查詢——分布式數據查詢116
本章思維導圖116
6.1分布式數據查詢簡介117
6.2Hive分布式數據倉庫118
6.2.1Hive概述118
6.2.2Hive內部介紹118
6.2.3Hive架構介紹119
6.2.4HiveQL:數據定義119
6.2.5HiveQL:數據導入121
6.2.6HiveQL:查詢123
6.3Druid時序數據倉儲129
6.3.1Druid概述129
6.3.2架構詳解132
6.3.3數據攝入135
6.3.4數據查詢141
6.4Drill分布式實時查詢156
6.4.1使用Apache Drill的原因156
6.4.2Drill架構與原理157
6.4.3Drill核心模塊160
6.4.4使用Drill實現查詢161
本章課后習題168
本章參考文獻168
第7章大數據分析——Kylin分布式多維數據分析170
本章思維導圖170
7.1使用Apache Kylin的原因171
7.2Kylin學習的前奏172
7.2.1數據倉庫的概念與產生需求172
7.2.2數據倉庫與數據分析型系統174
7.2.3多維數據分析175
7.2.4OLAP與數據立方體176
7.3Kylin工作原理178
7.3.1Cube與Cuboid178
7.3.2工作流程178
7.4Kylin架構179
7.5Kylin快速入門181
7.5.1在Hive中準備數據181
7.5.2設計數據模型181
7.5.3創建Cube183
7.5.4構建Cube186
7.5.5查詢Cube188
7.6增量構建188
7.6.1設計增量Cube189
7.6.2觸發增量構建190
7.6.3管理Cube碎片190
7.7查詢和可視化192
7.7.1Web GUI192
7.7.2Rest API194
7.7.3ODBC197
7.7.4通過Tableau訪問Kylin197
7.8Cube優化201
本章課后習題204
本章參考文獻204
第8章數據可視化205
本章思維導圖205
8.1數據可視化定義及分類206
8.1.1數據可視化定義206
8.1.2數據可視化分類206
8.2數據可視化基礎208
8.2.1數據可視化流程208
8.2.2可視化中的數據209
8.2.3可視化的基本圖表210
8.2.4視圖的交互211
8.3信息可視化分類212
8.3.1時空數據可視化212
8.3.2層次和網絡數據可視化213
8.3.3文本和文檔可視化214
8.4在商業智能中的數據可視化應用214
8.4.1商業智能可視化的基本元素215
8.4.2儀表盤的設計準則215
8.5數據可視化的實現216
8.5.1數據可視化工具216
8.5.2ECharts217
8.5.3Plotly218
本章課后習題220
本章參考文獻221
第9章大數據應用系統案例——互聯網應用大數據系統構建222
本章思維導圖222
9.1互聯網業務背景介紹223
9.2案例的大數據平臺技術體系架構223
9.2.1數據采集224
9.2.2數據存儲226
9.2.3數據計算227
9.2.4數據應用229
本章課后習題230
本章參考文獻230
大數據技術基礎 作者簡介
鄂海紅,博士,北京郵電大學計算機學院 副教授;科技部現代服務業共性服務聯盟,副秘書長;中國通信標準化協會TC11-WG1副組長。長期從事大數據工程與數據分析、機器學習與人工智能服務、云計算與分布式系統領域的研究工作,有扎實寬廣的理論基礎和科研項目實踐能力。作為課題負責人及主研人,完成科研項目累計34項(其中,國家級課題13項),累計發表SCI/EI論文62篇;申請國家發明專利34項,軟著登記25項;正式發布國家行業標準16項。曾獲得省部級特等獎獎勵 “中國服務業科技創新獎”,教育部“高等學校科學研究優秀成果獎”二等獎、“中國通信標準化協會科學技術獎”三等獎;教育部博士點基金資助;北京市“青年英才計劃”首批資助。
- >
我從未如此眷戀人間
- >
龍榆生:詞曲概論/大家小書
- >
巴金-再思錄
- >
史學評論
- >
伯納黛特,你要去哪(2021新版)
- >
唐代進士錄
- >
小考拉的故事-套裝共3冊
- >
新文學天穹兩巨星--魯迅與胡適/紅燭學術叢書(紅燭學術叢書)