国产第1页_91在线亚洲_中文字幕成人_99久久久久久_五月宗合网_久久久久国产一区二区三区四区

讀書月攻略拿走直接抄!
歡迎光臨中圖網(wǎng) 請 | 注冊

包郵 Hadoop與Spark入門

出版社:清華大學出版社出版時間:2022-11-01
開本: 其他 頁數(shù): 252
中 圖 價:¥50.0(8.5折) 定價  ¥59.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

Hadoop與Spark入門 版權信息

Hadoop與Spark入門 本書特色

本書篇幅不長,內(nèi)容易懂,有利于快速入門。 兼顧原理講解和具體操作,實踐性強,使讀者興趣盎然,更有成就感。 利用虛擬化技術,無須搭建物理集群,在一臺計算機上完成分布式部署,萬事不求人,玩轉Hadoop和Spark。

Hadoop與Spark入門 內(nèi)容簡介

本書為一本大數(shù)據(jù)技術的入門書籍,介紹Hadoop大數(shù)據(jù)平臺和Spark大數(shù)據(jù)平臺及相關工具的原理,以及如何進行部署和簡單開發(fā)。 全書包含13章: 第1、2章介紹如何為深入學習Hadoop和Spark做環(huán)境準備,包括VMware虛擬機的創(chuàng)建和CentOS操作系統(tǒng)安裝。第3~6章介紹Hadoop大數(shù)據(jù)平臺的基本原理,包括HDFS、MapReduce計算模型、HBase數(shù)據(jù)庫,以及Hive數(shù)據(jù)倉庫的原理、部署方法和開發(fā)技術。第7~11章介紹Spark大數(shù)據(jù)平臺的基本原理,包括彈性分布式數(shù)據(jù)集、轉換與動作操作、寬依賴與窄依賴、有向無環(huán)圖表達的作業(yè)及其處理過程等,并且介紹了Spark Core、Spark SQL、Spark MLlib、Spark GraphX的部署和開發(fā)技術。*后兩章介紹了Flume(第12章)和Kafka(第13章)兩個工具,F(xiàn)lume用于大量日志的收集和處理,Kafka用于對大量快速到達的數(shù)據(jù)進行及時、可靠、暫時的存儲。 本書適合高等院校高年級本科生以及碩士研究生使用,也可以供非計算機專業(yè)學生及相關領域技術人員參考。

Hadoop與Spark入門 目錄

第1章VMware與虛擬機1

1.1VMware簡介1

1.2VMware的安裝2

1.3VMware的網(wǎng)絡配置2

1.3.1VMnet0網(wǎng)卡配置2

1.3.2VMnet1網(wǎng)卡配置3

1.3.3VMnet8網(wǎng)卡配置3

1.4Windows環(huán)境下對VMnet8的DNS進行配置6

1.5利用管理員權限編輯網(wǎng)卡7

1.6總結7

1.7思考題8

參考文獻8

第2章CentOS操作系統(tǒng)安裝9

2.1新建VMware虛擬機9

2.2安裝CentOS14

2.3配置Yum18

2.4為CentOS安裝圖形用戶界面20

2.5CentOS的網(wǎng)絡配置20

2.5.1虛擬機的網(wǎng)絡配置20

2.5.2在CentOS操作系統(tǒng)里對網(wǎng)卡進行設置21

2.6Samba配置23

2.7配置SSHD26

2.8重新啟動虛擬機需要執(zhí)行的命令27

2.9思考題28

第3章Hadoop入門29

3.1Hadoop簡介29

3.2HDFS30

3.2.1寫文件31

3.2.2讀文件32

3.2.3Secondary NameNode介紹33

3.3MapReduce工作原理34

3.3.1MapReduce執(zhí)行引擎35

3.3.2MapReduce計算模型37

3.3.3Hadoop 1.0的應用38

3.4Hadoop生態(tài)系統(tǒng)38

3.5Hadoop 2.040

3.5.1Hadoop 1.0的優(yōu)勢和局限40

3.5.2從Hadoop 1.0到Hadoop 2.041

3.5.3YARN原理41

3.5.4YARN的優(yōu)勢43

3.6思考題44

〖3〗Hadoop與Spark入門目錄〖3〗第4章Hadoop安裝與HDFS、MapReduce實驗45

4.1安裝JDK45

4.2新建虛擬機集群47

4.2.1網(wǎng)絡配置小結47

4.2.2配置各個虛擬機別名48

4.2.3配置各個虛擬機的/etc/hosts文件48

4.3無密碼SSH登錄49

4.4Hadoop安裝、配置和啟動52

4.4.1coresite.xml配置文件54

4.4.2hdfssite.xml配置文件54

4.4.3mapredsite.xml配置文件55

4.4.4yarnsite.xml配置文件56

4.4.5配置hadoopenv.sh腳本文件59

4.4.6配置yarnenv.sh腳本文件59

4.4.7主機配置59

4.5格式化HDFS60

4.6啟動Hadoop60

4.7報告HDFS的基本信息62

4.8使用日志62

4.9Hadoop管理界面63

4.10Hadoop測試63

4.10.1HDFS常用文件操作命令63

4.10.2測試WordCount程序64

4.11配置History Server64

4.12若干問題解決65

4.13HDFS Java程序分析69

4.14WordCount程序代碼簡單分析73

4.15MapReduce Sort76

4.16MapReduce Java開發(fā)環(huán)境配置76

4.17思考題79

參考文獻80

第5章HBase簡介、部署與開發(fā)81

5.1HBase簡介81

5.2HBase訪問接口81

5.3HBase的數(shù)據(jù)模型82

5.4HBase系統(tǒng)架構83

5.5HBase存儲格式85

5.6在HBase系統(tǒng)上運行MapReduce87

5.7HBase安裝、配置與運行87

5.8啟動HBase并且測試90

5.9使用HBase Shell92

5.10HBase Java實例分析93

5.11若干問題解決97

5.12思考題99

參考文獻99

第6章Hive數(shù)據(jù)倉庫100

6.1Hive簡介100

6.2Hive數(shù)據(jù)模型102

6.3Hive安裝、配置和運行103

6.3.1使用MySQL進行元信息管理104

6.3.2安裝和配置Hive105

6.3.3啟動Hive108

6.4若干問題解決110

6.5hiveserver2與beeline112

6.6Hive安裝問題115

6.7HWI服務115

6.8Metastore服務116

6.9Hive的Java開發(fā)116

6.10Tez簡介119

6.10.1Hadoop 2.0上的交互式查詢引擎Hive on Tez119

6.10.2把數(shù)據(jù)處理邏輯建模成一個DAG連接起來的任務121

6.11Hadoop平臺上的列存儲技術121

6.11.1列存儲的優(yōu)勢121

6.11.2Parquet列存儲格式121

6.12思考題126

參考文獻126

第7章Spark及其生態(tài)系統(tǒng)127

7.1Spark簡介127

7.1.1Spark軟件架構127

7.1.2Spark的主要優(yōu)勢128

7.2Hadoop的局限和Spark的誕生129

7.3Spark的特性130

7.4Spark生態(tài)系統(tǒng)131

7.5RDD及其處理132

7.5.1DAG、寬依賴與窄依賴133

7.5.2DAG的調(diào)度執(zhí)行134

7.6Spark的部署135

7.7Spark SQL136

7.8Spark的應用案例137

7.9總結138

7.10思考題138

參考文獻138

第8章Spark的安裝、部署與運行139

8.1Spark的安裝、配置與運行139

8.2啟動Spark142

8.2.1啟動sparksql shell運行SQL144

8.2.2啟動pyspark shell運行SQL144

8.2.3用pyspark shell進行數(shù)據(jù)處理145

8.2.4啟動scala shell運行WordCount145

8.2.5啟動scala shell運行SQL(本地文件)146

8.2.6啟動scala shell運行SQL(HDFS文件)147

8.2.7配置和啟動Thrift Server147

8.2.8錯誤分析150

8.3在Windows上用Eclipse調(diào)試Spark Java程序151

8.4在Windows上安裝Maven和配置Eclipse157

8.5思考題160

參考文獻160

第9章Spark SQL162

9.1Spark SQL簡介162

9.2查詢本地文件、HDFS文件以及HDFS Parquet列存儲格式文件163

9.3內(nèi)置實例分析與Java開發(fā)166

9.3.1通過SQL Explorer插件存取Spark SQL166

9.3.2JDBC Java編程167

9.4思考題170

參考文獻170

第10章Spark MLlib171

10.1MLlib簡介171

10.2啟動平臺軟件172

10.3分類實例173

10.4聚類實例178

10.5線性回歸180

10.6協(xié)同過濾推薦181

10.7思考題184

參考文獻185

第11章Spark GraphX186

11.1GraphX簡介186

11.2PageRank188

11.3思考題190

參考文獻190

第12章Flume入門191

12.1Flume簡介191

12.2Flume的特性192

12.3Flume的系統(tǒng)架構和運行機制192

12.4Flume的安裝、配置和運行195

12.5使用netcat完成數(shù)據(jù)注入的實例197

12.6以HBase為目標數(shù)據(jù)庫的實例198

12.7以Hive為目標數(shù)據(jù)庫的實例200

12.8Java開發(fā)204

12.9如何安裝netcat204

12.10思考題204

參考文獻204

第13章Kafka入門206

13.1Kafka簡介206

13.1.1話題和分區(qū)207

13.1.2數(shù)據(jù)分布與存儲208

13.1.3代理209

13.1.4生產(chǎn)者209

13.1.5消費者209

13.1.6消息的順序210

13.1.7Kafka的應用場景211

13.1.8小結213

13.2Zookeeper與Kafka213

13.3Kafka的流數(shù)據(jù)處理組件Kafka Streams214

13.4Kafka在系統(tǒng)中的位置214

13.5Kafka的安裝、配置和運行215

13.5.1單Broker部署215

13.5.2多Broker部署217

13.5.3測試容錯性219

13.6安裝問題220

13.7Kafka的Java編程220

13.8Kafka的綜合實例227

13.9Kafka與Flume的配合228

13.10流處理與批處理的結合231

13.11思考題232

參考文獻232


展開全部

Hadoop與Spark入門 作者簡介

覃雄派,博士,中國人民大學信息學院講師、碩士生導師,目前主要從事高性能數(shù)據(jù)庫、大數(shù)據(jù)分析、信息檢索等方面的研究工作,主持1項 自然科學基金面上項目,參與多項 “863”計劃、“973”計劃及 自然科學基金項目,在 外期刊和會議上發(fā)表論文20余篇。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網(wǎng)
在線客服
主站蜘蛛池模板: 国内精品久久久久久影院网站小说 | 在线观看亚洲精品国产 | 午夜草逼| 成人人免费夜夜视频观看 | 在线干| 国产人成视频在线观看 | 少妇被粗大的猛烈进出69影院一 | 久揄揄鲁一二三四区高清在线 | 色综合久久88色综合天天小说 | 久久综合久久鬼色 | 黄色毛片免费 | 99久久精品国产片久人 | a级毛片100部免费看 | 蜜臀av性久久久久蜜臀aⅴ | 国产人成亚洲第一网站在线播放 | 日韩一区二区在线视频 | 亚洲精品一区二区三区香蕉在线看 | 国产美女视频 | 精品一区二区不卡无码av | 亚洲av无码精品色午夜果冻不卡 | 国产精品福利久久久久久小说 | 免费被黄动漫网站在线观看下 | 天堂www中文在线资源 | 日韩少妇内射免费播放18禁裸乳 | 日本午夜电影网 | 久久99精品九九九久久婷婷 | 玖玖精品在线 | 日日碰夜夜操 | 99精品视频在线观看免费播放 | 国产最新自拍视频 | 国产乱子伦精品免费无码专区 | 91中文字幕在线视频 | 亚洲成a v人片在线看片 | 老色鬼福利视频在线观看 | 国产网友自拍视频 | 亚洲不卡一区二区三区在线 | 久久手机视频 | 国产成人免费在线视频 | 国产乱子伦农村叉叉叉 | 免费国产视频在线观看 | 日韩中文字幕一区二区不卡 |