-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
大數據技術基礎與實戰 版權信息
- ISBN:9787115567192
- 條形碼:9787115567192 ; 978-7-115-56719-2
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
大數據技術基礎與實戰 本書特色
1.全書通過實踐操作講解大數據開發的基礎知識,不僅提供相應命令、配置文件,還提供模擬環境演示等,盡可能通過案例和實操,降低大數據學習的門檻,力求讓讀者學以致用。 2.內容全:大數據技術概述、Linux基礎與集群搭建、Hadoop集群配置、Hadoop分布式文件系統、MapReduce分布式編程、Hive大數據倉庫、HBase數據庫部署與操作、數據獲取與采集、基于Spark的內存計算以及利用大數據平臺處理圖像及視頻
大數據技術基礎與實戰 內容簡介
本書從技術實戰的角度,帶領讀者一步一步掌握大數據的相關技能。本書不僅提供相應命令、配置文件,還提供模擬環境演示等,并盡可能通過案例和實操降低大數據學習的門檻,力求讓讀者學以致用。 本書主要內容包括大數據技術概述、Linux基礎與集群搭建、Hadoop集群配置、HDFS、MapReduce分布式編程、Hive大數據倉庫、HBase數據庫部署與操作、數據獲取與Flume應用、基于Spark的內存計算,以及利用大數據平臺處理圖像及視頻。
大數據技術基礎與實戰 目錄
1.1 大數據的概念與基本特性 1
1.2 大數據處理流程 2
1.3 Hadoop大數據技術 3
1.3.1 Hadoop簡介 3
1.3.2 Hadoop的發行版本 5
1.4 實踐環境準備 7
習題 15
第2章 Linux基礎與集群搭建 16
2.1 Linux常用命令 16
2.1.1 用戶和用戶組 16
2.1.2 文件與目錄 18
2.1.3 主機名 24
2.1.4 分區管理 25
2.2 網絡配置 27
2.2.1 基本網絡配置 27
2.2.2 集群網絡配置 28
2.3 Linux集群配置 31
2.3.1 SSH免密碼登錄 31
2.3.2 Java環境安裝 33
2.3.3 MySQL服務 34
2.3.4 配置時鐘同步 35
2.4 快速配置Linux集群 37
2.4.1 導入虛擬機 37
2.4.2 快速配置 39
習題 42
第3章 Hadoop集群配置 43
3.1 Hadoop集群安裝 43
3.1.1 基礎環境準備 43
3.1.2 配置Java環境 49
3.1.3 安裝Hadoop 51
3.1.4 啟動Hadoop 58
3.2 Hadoop集群初始化和日志查看 62
3.2.1 初始化文件系統 62
3.2.2 集群的啟動與停止 62
3.2.3 查看日志 63
習題 64
第4章 HDFS 65
4.1 HDFS簡介 65
4.1.1 HDFS的基本概念 65
4.1.2 HDFS文件的讀取 66
4.1.3 HDFS文件的寫入 67
4.1.4 HDFS 數據備份 68
4.2 HDFS基本命令 69
4.3 HDFS數據平衡優化 72
4.3.1 編程原則 73
4.3.2 平衡邏輯 73
4.3.3 數據平衡案例 74
4.4 HDFS API的使用方法 75
習題 81
第5章 MapReduce分布式編程
82
5.1 MapReduce簡介 82
5.2 詞頻統計編程實例 83
5.3 MapReduce Shuffle過程開發 89
5.3.1 MapReduce數據類型 90
5.3.2 Partitioner負載平衡編程 90
5.3.3 Sort排序編程 92
5.3.4 Combiner減少中間數據編程 93
5.4 MapReduce的性能優化 94
5.4.1 Hadoop配置參數調優 94
5.4.2 使用合適的數據類型 95
5.4.3 基準性能測試工具 96
5.5 YARN數據處理框架 99
5.5.1 YARN常用命令 100
5.5.2 使用Web GUI監控實例 102
5.6 MapReduce實戰:繪制頻度分布 104
5.6.1 實戰概述 104
5.6.2 實戰步驟 104
5.6.3 源碼分析 109
習題 114
第6章 Hive大數據倉庫 115
6.1 Hive簡介 115
6.2 Hive安裝及配置 116
6.3 從創建數據庫到創建表 118
6.3.1 數據類型 118
6.3.2 創建數據庫 119
6.3.3 創建表 119
6.3.4 刪除表 121
6.3.5 修改表 121
6.4 數據查詢及自定義函數運算 123
6.4.1 HiveQL操作 123
6.4.2 JOIN語句 124
6.4.3 內置操作符和函數 125
6.5 Hive自定義函數編程 128
6.5.1 數據準備 128
6.5.2 編程實現 129
6.5.3 使用自定義函數 130
6.6 Hive實戰 132
6.6.1 數據準備 133
6.6.2 實戰步驟 133
習題 136
第7章 HBase數據庫部署與操作
138
7.1 HBase簡介 138
7.1.1 HBase表 138
7.1.2 HBase基本知識 138
7.2 HBase的安裝 139
7.2.1 必要條件 139
7.2.2 安裝配置HBase 140
7.2.3 啟動HBase 142
7.3 HBase Shell操作 143
7.3.1 普通命令 145
7.3.2 DDL操作 146
7.3.3 DML操作 148
7.3.4 工具命令 150
7.3.5 復制命令 151
7.4 HBase客戶端API 151
7.4.1 CRUD操作 151
7.4.2 批量處理 155
7.4.3 行鎖 156
7.4.4 掃描 157
7.4.5 數據過濾 158
7.5 HBase客戶端選擇及配置優化 159
7.6 HBase與MapReduce集成 159
7.7 HBase集群監控 160
7.8 HBase實戰:公有云網盤系統管理 164
7.8.1 部署公有云網盤 165
7.8.2 網盤核心代碼分析 168
習題 171
第8章 數據獲取與Flume應用 172
8.1 公開數據資源獲取 172
8.2 使用網絡爬蟲獲取數據 173
8.2.1 爬蟲的工作原理 173
8.2.2 爬蟲的搜索策略 174
8.2.3 爬蟲的簡單應用 175
8.3 使用Flume獲取數據 177
8.3.1 Flume簡介 177
8.3.2 Flume運行機制 177
8.3.3 Flume安裝部署 179
8.3.4 Flume簡單應用 180
8.4 綜合案例 182
習題 186
第9章 基于Spark的內存計算 187
9.1 Spark簡介 187
9.2 Spark快速部署 188
9.2.1 Spark單機模式部署 188
9.2.2 Spark分布式集群部署 189
9.3 Spark程序 192
9.3.1 Spark Shell 192
9.3.2 在IDEA中編寫詞頻統計 193
9.4 Spark RDD編程 197
9.4.1 RDD簡介 197
9.4.2 RDD的操作算子 198
9.4.3 RDD的持久化 204
9.5 Spark生態系統 205
9.5.1 Spark Core 206
9.5.2 Spark SQL 206
9.5.3 Spark Streaming 206
9.5.4 MLlib 206
9.5.5 GraphX 207
9.6 Spark應用案例 207
9.6.1 案例概述 207
9.6.2 代碼實現 208
9.6.3 運行結果 208
習題 209
第10章 利用大數據平臺處理圖像
210
10.1 圖像的基本概念 210
10.2 Hadoop處理圖像的問題與對策 211
10.2.1 Hadoop直接處理圖像存在
的問題 211
10.2.2 解決途徑 212
10.3 HIPI安裝與部署 212
10.4 使用HIPI進行圖像處理 214
10.5 HIPI工具hibDownload 222
10.5.1 編譯hibDownload 222
10.5.2 hibDownload的使用方法 222
10.5.3 hibDownload的工作原理 222
10.5.4 hibDownload的使用示例 230
習題 235
參考文獻 236
大數據技術基礎與實戰 作者簡介
薛志東,博士,研究員,現在華中科技大學軟件學院工作,長期從事大數據相關教學與科研工作。先后講授多門本科生、研究生課程,承擔多項國家自然科學基金、湖北省自然科學基金、華為技術公司委托等重要項目。目前的研究主要涉及大數據處理相關領域等,如基于云計算的圖像與視頻等信息處理技術、醫學與生物信息處理與分析、文本挖掘、深度學習、GPU開發等;同時對移動應用、康復游戲、無人機、機器人應用軟件開發等有濃厚的興趣。
- >
中國歷史的瞬間
- >
上帝之肋:男人的真實旅程
- >
我從未如此眷戀人間
- >
唐代進士錄
- >
大紅狗在馬戲團-大紅狗克里弗-助人
- >
山海經
- >
苦雨齋序跋文-周作人自編集
- >
有舍有得是人生