-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰(zhàn)行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調(diào)優(yōu)實踐之路
-
>
第一行代碼Android
-
>
JAVA持續(xù)交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
Hadoop與Spark入門 版權信息
- ISBN:9787302613633
- 條形碼:9787302613633 ; 978-7-302-61363-3
- 裝幀:一般膠版紙
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>
Hadoop與Spark入門 本書特色
本書篇幅不長,內(nèi)容易懂,有利于快速入門。 兼顧原理講解和具體操作,實踐性強,使讀者興趣盎然,更有成就感。 利用虛擬化技術,無須搭建物理集群,在一臺計算機上完成分布式部署,萬事不求人,玩轉Hadoop和Spark。
Hadoop與Spark入門 內(nèi)容簡介
本書為一本大數(shù)據(jù)技術的入門書籍,介紹Hadoop大數(shù)據(jù)平臺和Spark大數(shù)據(jù)平臺及相關工具的原理,以及如何進行部署和簡單開發(fā)。 全書包含13章: 第1、2章介紹如何為深入學習Hadoop和Spark做環(huán)境準備,包括VMware虛擬機的創(chuàng)建和CentOS操作系統(tǒng)安裝。第3~6章介紹Hadoop大數(shù)據(jù)平臺的基本原理,包括HDFS、MapReduce計算模型、HBase數(shù)據(jù)庫,以及Hive數(shù)據(jù)倉庫的原理、部署方法和開發(fā)技術。第7~11章介紹Spark大數(shù)據(jù)平臺的基本原理,包括彈性分布式數(shù)據(jù)集、轉換與動作操作、寬依賴與窄依賴、有向無環(huán)圖表達的作業(yè)及其處理過程等,并且介紹了Spark Core、Spark SQL、Spark MLlib、Spark GraphX的部署和開發(fā)技術。*后兩章介紹了Flume(第12章)和Kafka(第13章)兩個工具,F(xiàn)lume用于大量日志的收集和處理,Kafka用于對大量快速到達的數(shù)據(jù)進行及時、可靠、暫時的存儲。 本書適合高等院校高年級本科生以及碩士研究生使用,也可以供非計算機專業(yè)學生及相關領域技術人員參考。
Hadoop與Spark入門 目錄
第1章VMware與虛擬機1
1.1VMware簡介1
1.2VMware的安裝2
1.3VMware的網(wǎng)絡配置2
1.3.1VMnet0網(wǎng)卡配置2
1.3.2VMnet1網(wǎng)卡配置3
1.3.3VMnet8網(wǎng)卡配置3
1.4Windows環(huán)境下對VMnet8的DNS進行配置6
1.5利用管理員權限編輯網(wǎng)卡7
1.6總結7
1.7思考題8
參考文獻8
第2章CentOS操作系統(tǒng)安裝9
2.1新建VMware虛擬機9
2.2安裝CentOS14
2.3配置Yum18
2.4為CentOS安裝圖形用戶界面20
2.5CentOS的網(wǎng)絡配置20
2.5.1虛擬機的網(wǎng)絡配置20
2.5.2在CentOS操作系統(tǒng)里對網(wǎng)卡進行設置21
2.6Samba配置23
2.7配置SSHD26
2.8重新啟動虛擬機需要執(zhí)行的命令27
2.9思考題28
第3章Hadoop入門29
3.1Hadoop簡介29
3.2HDFS30
3.2.1寫文件31
3.2.2讀文件32
3.2.3Secondary NameNode介紹33
3.3MapReduce工作原理34
3.3.1MapReduce執(zhí)行引擎35
3.3.2MapReduce計算模型37
3.3.3Hadoop 1.0的應用38
3.4Hadoop生態(tài)系統(tǒng)38
3.5Hadoop 2.040
3.5.1Hadoop 1.0的優(yōu)勢和局限40
3.5.2從Hadoop 1.0到Hadoop 2.041
3.5.3YARN原理41
3.5.4YARN的優(yōu)勢43
3.6思考題44
〖3〗Hadoop與Spark入門目錄〖3〗第4章Hadoop安裝與HDFS、MapReduce實驗45
4.1安裝JDK45
4.2新建虛擬機集群47
4.2.1網(wǎng)絡配置小結47
4.2.2配置各個虛擬機別名48
4.2.3配置各個虛擬機的/etc/hosts文件48
4.3無密碼SSH登錄49
4.4Hadoop安裝、配置和啟動52
4.4.1coresite.xml配置文件54
4.4.2hdfssite.xml配置文件54
4.4.3mapredsite.xml配置文件55
4.4.4yarnsite.xml配置文件56
4.4.5配置hadoopenv.sh腳本文件59
4.4.6配置yarnenv.sh腳本文件59
4.4.7主機配置59
4.5格式化HDFS60
4.6啟動Hadoop60
4.7報告HDFS的基本信息62
4.8使用日志62
4.9Hadoop管理界面63
4.10Hadoop測試63
4.10.1HDFS常用文件操作命令63
4.10.2測試WordCount程序64
4.11配置History Server64
4.12若干問題解決65
4.13HDFS Java程序分析69
4.14WordCount程序代碼簡單分析73
4.15MapReduce Sort76
4.16MapReduce Java開發(fā)環(huán)境配置76
4.17思考題79
參考文獻80
第5章HBase簡介、部署與開發(fā)81
5.1HBase簡介81
5.2HBase訪問接口81
5.3HBase的數(shù)據(jù)模型82
5.4HBase系統(tǒng)架構83
5.5HBase存儲格式85
5.6在HBase系統(tǒng)上運行MapReduce87
5.7HBase安裝、配置與運行87
5.8啟動HBase并且測試90
5.9使用HBase Shell92
5.10HBase Java實例分析93
5.11若干問題解決97
5.12思考題99
參考文獻99
第6章Hive數(shù)據(jù)倉庫100
6.1Hive簡介100
6.2Hive數(shù)據(jù)模型102
6.3Hive安裝、配置和運行103
6.3.1使用MySQL進行元信息管理104
6.3.2安裝和配置Hive105
6.3.3啟動Hive108
6.4若干問題解決110
6.5hiveserver2與beeline112
6.6Hive安裝問題115
6.7HWI服務115
6.8Metastore服務116
6.9Hive的Java開發(fā)116
6.10Tez簡介119
6.10.1Hadoop 2.0上的交互式查詢引擎Hive on Tez119
6.10.2把數(shù)據(jù)處理邏輯建模成一個DAG連接起來的任務121
6.11Hadoop平臺上的列存儲技術121
6.11.1列存儲的優(yōu)勢121
6.11.2Parquet列存儲格式121
6.12思考題126
參考文獻126
第7章Spark及其生態(tài)系統(tǒng)127
7.1Spark簡介127
7.1.1Spark軟件架構127
7.1.2Spark的主要優(yōu)勢128
7.2Hadoop的局限和Spark的誕生129
7.3Spark的特性130
7.4Spark生態(tài)系統(tǒng)131
7.5RDD及其處理132
7.5.1DAG、寬依賴與窄依賴133
7.5.2DAG的調(diào)度執(zhí)行134
7.6Spark的部署135
7.7Spark SQL136
7.8Spark的應用案例137
7.9總結138
7.10思考題138
參考文獻138
第8章Spark的安裝、部署與運行139
8.1Spark的安裝、配置與運行139
8.2啟動Spark142
8.2.1啟動sparksql shell運行SQL144
8.2.2啟動pyspark shell運行SQL144
8.2.3用pyspark shell進行數(shù)據(jù)處理145
8.2.4啟動scala shell運行WordCount145
8.2.5啟動scala shell運行SQL(本地文件)146
8.2.6啟動scala shell運行SQL(HDFS文件)147
8.2.7配置和啟動Thrift Server147
8.2.8錯誤分析150
8.3在Windows上用Eclipse調(diào)試Spark Java程序151
8.4在Windows上安裝Maven和配置Eclipse157
8.5思考題160
參考文獻160
第9章Spark SQL162
9.1Spark SQL簡介162
9.2查詢本地文件、HDFS文件以及HDFS Parquet列存儲格式文件163
9.3內(nèi)置實例分析與Java開發(fā)166
9.3.1通過SQL Explorer插件存取Spark SQL166
9.3.2JDBC Java編程167
9.4思考題170
參考文獻170
第10章Spark MLlib171
10.1MLlib簡介171
10.2啟動平臺軟件172
10.3分類實例173
10.4聚類實例178
10.5線性回歸180
10.6協(xié)同過濾推薦181
10.7思考題184
參考文獻185
第11章Spark GraphX186
11.1GraphX簡介186
11.2PageRank188
11.3思考題190
參考文獻190
第12章Flume入門191
12.1Flume簡介191
12.2Flume的特性192
12.3Flume的系統(tǒng)架構和運行機制192
12.4Flume的安裝、配置和運行195
12.5使用netcat完成數(shù)據(jù)注入的實例197
12.6以HBase為目標數(shù)據(jù)庫的實例198
12.7以Hive為目標數(shù)據(jù)庫的實例200
12.8Java開發(fā)204
12.9如何安裝netcat204
12.10思考題204
參考文獻204
第13章Kafka入門206
13.1Kafka簡介206
13.1.1話題和分區(qū)207
13.1.2數(shù)據(jù)分布與存儲208
13.1.3代理209
13.1.4生產(chǎn)者209
13.1.5消費者209
13.1.6消息的順序210
13.1.7Kafka的應用場景211
13.1.8小結213
13.2Zookeeper與Kafka213
13.3Kafka的流數(shù)據(jù)處理組件Kafka Streams214
13.4Kafka在系統(tǒng)中的位置214
13.5Kafka的安裝、配置和運行215
13.5.1單Broker部署215
13.5.2多Broker部署217
13.5.3測試容錯性219
13.6安裝問題220
13.7Kafka的Java編程220
13.8Kafka的綜合實例227
13.9Kafka與Flume的配合228
13.10流處理與批處理的結合231
13.11思考題232
參考文獻232
Hadoop與Spark入門 作者簡介
覃雄派,博士,中國人民大學信息學院講師、碩士生導師,目前主要從事高性能數(shù)據(jù)庫、大數(shù)據(jù)分析、信息檢索等方面的研究工作,主持1項 自然科學基金面上項目,參與多項 “863”計劃、“973”計劃及 自然科學基金項目,在 外期刊和會議上發(fā)表論文20余篇。
- >
小考拉的故事-套裝共3冊
- >
苦雨齋序跋文-周作人自編集
- >
伯納黛特,你要去哪(2021新版)
- >
推拿
- >
中國人在烏蘇里邊疆區(qū):歷史與人類學概述
- >
自卑與超越
- >
我與地壇
- >
人文閱讀與收藏·良友文學叢書:一天的工作