包郵 Spark大數據技術與應用

作者：肖芳,張良均主編

出版社：人民郵電出版社出版時間：2018-02-01

開本： 32開 頁數： 272

本類榜單：計算機/網絡銷量榜

中圖價:¥30.9(6.2折) 定價 ~~¥49.8~~ 登錄后可看到會員價

加入購物車收藏

開年大促， 全場包郵

?新疆、西藏除外

本類五星書更多>

>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用

全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用

¥14.4¥45
>
決戰行測5000題(言語理解與表達)

決戰行測5000題(言語理解與表達)

¥44.1¥88
>
軟件性能測試.分析與調優實踐之路

軟件性能測試.分析與調優實踐之路

¥56.2¥69
>
第一行代碼Android

第一行代碼Android

¥55.4¥99
>
JAVA持續交付

JAVA持續交付

¥58.1¥119
>
EXCEL最強教科書(完全版)(全彩印刷)

EXCEL最強教科書(完全版)(全彩印刷)

¥31.1¥69.9
>
深度學習

深度學習

¥92.4¥168

買過本商品的人還買了

計算機類本科規劃教材LINUX系統程序設計教程/王凱
王凱
¥25.7~~¥45.0~~
Python數據可視化編程實戰-(第2版)
(愛爾蘭)伊戈爾·米洛瓦諾維奇(Igor
¥54.8~~¥69.0~~
瘋狂Java講義
李剛編著
¥47.9~~¥109.0~~

商品詳情
商品評論(0條)

中圖價:¥30.9 加入購物車

版權信息
本書特色
內容簡介
目錄
作者簡介

Spark大數據技術與應用版權信息

ISBN：9787115464880
條形碼：9787115464880 ; 978-7-115-46488-0
裝幀：一般膠版紙
冊數：暫無
重量：暫無
所屬分類：
計算機/網絡
>
行業軟件及應用

Spark大數據技術與應用本書特色

本書以任務為導向，較為全面地介紹了Spark大數據技術的相關知識。全書共9章，具體內容包括Spark概述；Scala基礎；Spark編程；Spark編程進階；Spark SQL：結構化數據文件處理；Spark Streaming：實時計算框架；Spark GraphX：圖計算框架；Spark MLlib：功能強大的算法庫；項目案例：餐飲平臺菜品智能推薦。本書的大部分章節都包含了實訓與課后習題，通過練習和操作實踐，幫助讀者鞏固所學的內容。

Spark大數據技術與應用內容簡介

資深大數據專家張良均領銜暢銷書作者團隊，教育部長江學者特聘教授、國家杰出青年基金獲得者、IEEE Fellow、華南理工大學計算機與工程學院院長張軍傾力推薦。本書采用了以任務為導向的教學模式，按照解決實際任務的工作流程路線，逐步展開介紹相關的理論知識點，推導生成可行的解決方案，后落實在任務實現環節。全書大部分章節緊扣任務需求展開，不堆積知識點，著重于解決問題時思路的啟發與方案的實施。通過從任務需求到實現這一完整工作流程的體驗，幫助讀者真正理解與消化Hadoop大數據技術。書中案例全部源于企業真實項目，可操作性強，引導讀者融會貫通，并提供源代碼等相關學習資源，幫助讀者快速掌握大數據相關技能。

Spark大數據技術與應用目錄

第 1章　Spark概述　1

任務1.1　認識Spark　1

1.1.1　Spark的發展　1

1.1.2　Spark的特點　2

1.1.3　Spark生態圈　4

1.1.4　Spark的應用場景　5

任務1.2　搭建Spark環境　5

1.2.1　搭建單機版環境　6

1.2.2　搭建單機偽分布式環境　6

1.2.3　搭建完全分布式環境　7

任務1.3　了解Spark運行架構與原理　10

1.3.1　Spark集群架構　11

1.3.2　Spark作業運行流程　11

1.3.3　Spark核心數據集RDD　15

1.3.4　Spark核心原理　17

小結　19

第 2章　Scala基礎　20

任務2.1　Scala的簡介與安裝　21

2.1.1　Scala簡介　21

2.1.2　Scala特性　21

2.1.3　Scala的環境設置及安裝　21

2.1.4　運行Scala　23

任務2.2　定義函數識別號碼類型　24

2.2.1　數據類型　24

2.2.2　常量和變量　25

2.2.3　表達式　26

2.2.4　數組　27

2.2.5　函數　29

2.2.6　任務實現　31

任務2.3　統計廣州號碼段數量　32

2.3.1　if判斷　32

2.3.2　循環　33

2.3.3　任務實現　34

任務2.4　根據歸屬地對手機號碼段分組　34

2.4.1　List　35

2.4.2　Set　36

2.4.3　Map　37

2.4.4　元組　38

2.4.5　函數組合器　38

2.4.6　任務實現　39

任務2.5　編寫手機號碼歸屬地信息查詢程序　40

2.5.1　Scala類　40

2.5.2　Scala object　42

2.5.3　Scala模式匹配　42

2.5.4　Scala讀取文件　44

2.5.5　任務實現　44

小結　45

實訓　45

實訓1　編寫函數過濾文本中的回文單詞　45

實訓2　使用Scala編程輸出楊輝三角　46

課后習題　46

第3章　Spark編程　48

任務3.1　以學生成績數據創建RDD　49

3.1.1　從內存中已有數據創建RDD　50

3.1.2　從外部存儲創建RDD　51

3.1.3　任務實現　52

任務3.2　查詢學生成績表中的前5名　52

3.2.1　使用map轉換數據　52

3.2.2　使用sortBy()排序　53

3.2.3　使用collect()查詢　53

3.2.4　使用flatMap轉換數據　54

3.2.5　使用take()方式查詢某幾個值　54

3.2.6　任務實現　55

任務3.3　輸出單科成績為100分的學生ID　55

3.3.1　使用union()合并多個RDD　56

3.3.2　使用filter()進行過濾　56

3.3.3　使用distinct()進行去重　56

3.3.4　簡單的集合操作　57

3.3.5　任務實現　58

任務3.4　輸出每位學生所有科目的總成績　58

3.4.1　鍵值對RDD簡介　59

3.4.2　創建鍵值對RDD　59

3.4.3　轉換操作keys與values　59

3.4.4　轉換操作reduceByKey()　60

3.4.5　轉換操作groupByKey()　60

3.4.6　任務實現　60

任務3.5　輸出每位學生的平均成績　61

3.5.1　使用join()連接兩個RDD　61

3.5.2　使用zip組合兩個RDD　63

3.5.3　使用combineByKey合并相同鍵的值　63

3.5.4　使用lookup查找指定鍵的值　64

3.5.5　任務實現　64

任務3.6　將匯總后的學生成績存儲為文本文件　65

3.6.1　JSON文件的讀取與存儲　65

3.6.2　CSV文件的讀取與存儲　67

3.6.3　SquenceFile的讀取與存儲　69

3.6.4　文本文件的讀取與存儲　70

3.6.5　任務實現　71

小結　72

實訓　72

實訓1　統計文本中性別為“男”的用戶數　73

實訓2　單詞計數　73

課后習題　74

第4章　Spark編程進階　76

任務4.1　搭建開發環境　77

4.1.1　下載與安裝IntelliJ IDEA　77

4.1.2　Scala插件安裝與使用　79

4.1.3　配置Spark運行環境　84

4.1.4　運行Spark程序　85

任務4.2　使用移動平均預測股票漲跌　92

4.2.1　持久化（緩存）　93

4.2.2　數據分區　94

4.2.3　計算價格波動幅度　98

4.2.4　任務實現　100

小結　103

實訓　103

實訓　競賽網站訪問日志分析　104

課后習題　104

第5章　Spark SQL：結構化數據文件處理　107

任務5.1　認識Spark SQL　108

5.1.1　Spark SQL簡介　108

5.1.2　Spark SQL CLI配置　109

5.1.3　Spark SQL與Shell交互　110

任務5.2　掌握DataFrame基礎操作　111

5.2.1　創建DataFrame對象　111

5.2.2　DataFrame查看數據　114

5.2.3　DataFrame查詢操作　117

5.2.4　DataFrame輸出操作　123

任務5.3　探索分析法律服務網站數據　125

5.3.1　獲取數據　125

5.3.2　網頁類型分析　126

5.3.3　點擊次數分析　131

5.3.4　網頁排名分析　133

小結　135

實訓　135

實訓1　統計分析航空公司客戶數據的空值以及異常值　135

實訓2　統計分析某公司每年的產品銷售量及銷售額　137

課后習題　139

第6章　Spark Streaming：實時計算框架　141

任務6.1　初探Spark Streaming　142

6.1.1　Spark Streaming概述　142

6.1.2　Spark Streaming運行原理　142

6.1.3　初步使用Spark Streaming　143

任務6.2　掌握DStream編程模型　145

6.2.1　DStream簡介　146

6.2.2　DStream轉換操作　146

6.2.3　DStream窗口操作　148

6.2.4　DStream輸出操作　151

任務6.3　Spark Streaming實時更新熱門博文　155

6.3.1　Spark Streaming輸入數據源　155

6.3.2　Spark Streaming計算網頁熱度　158

6.3.3　網頁熱度輸出　158

6.3.4　任務實現　159

小結　161

實訓　161

實訓1　過濾打印包含單詞error的記錄　162

實訓2　實時過濾歌曲播放次數超過100次的記錄并存儲在HDFS上　162

課后習題　162

第7章　Spark GraphX：圖計算框架　165

任務7.1　認識Spark GraphX　166

7.1.1　圖的基本概念　166

7.1.2　圖計算的應用　167

7.1.3　GraphX的基礎概念　168

7.1.4　GraphX的發展　168

任務7.2　了解GraphX常用API　169

7.2.1　圖的創建與存儲　169

7.2.2　數據查詢與數據轉換　174

7.2.3　結構轉換與關聯聚合　180

任務7.3　構建信任網絡并找出目標用戶　187

7.3.1　構建網站信任網絡　188

7.3.2　找出需要支付稿酬的用戶　188

7.3.3　找出進入熱門榜的用戶　189

小結　191

實訓　191

實訓1　使用PageRank算法完成網頁排名　191

實訓2　利用二度關系完成商品推薦　192

課后習題　194

第8章　Spark MLlib：功能強大的算法庫　196

任務8.1　了解MLlib算法庫　197

8.1.1　機器學習簡介　197

8.1.2　MLlib介紹　198

任務8.2　以Logistic回歸實現用戶分類　212

8.2.1　分析思路　212

8.2.2　數據處理　213

8.2.3　MLlib實現Logistic回歸　215

8.2.4　任務實現　217

小結　221

實訓　221

實訓1　通過KMeans定位商圈　221

實訓2　樸素貝葉斯進行文本分類　222

課后習題　223

第9章　項目案例：餐飲平臺菜品智能推薦　226

任務9.1　推薦方案設計　227

9.1.1　用戶數據分析　227

9.1.2　常用推薦算法　229

9.1.3　推薦流程設計　231

任務9.2　數據預處理　232

9.2.1　原始數據探索分析　233

9.2.2　異常數據處理　237

9.2.3　數據變換處理　237

9.2.4　數據集分割　239

任務9.3　建立推薦模型　240

9.3.1　以基于用戶的協同過濾算法建模　240

9.3.2　以基于物品的協同過濾算法建模　243

9.3.3　以基于Spark ALS的協同過濾算法建立模型　246

9.3.4　推薦模型的評測　251

任務9.4　使用模型進行菜品推薦　262

9.4.1　對某用戶推薦10道新菜品　262

9.4.2　對所有用戶進行新菜品推薦　267

小結　272

展開全部

Spark大數據技術與應用作者簡介

張良均，高級信息系統項目管理師，泰迪杯全國大學生數據挖掘競賽（www.tipdm.org）發起人。華南師范大學、廣東工業大學兼職教授，廣東省工業與應用數學學會理事。兼有大型高科技企業和高校的工作經歷，主要從事大數據挖掘及其應用的策劃、研發及咨詢培訓。全國計算機技術與軟件專業技術資格（水平）考試繼續教育和CDA數據分析師培訓講師。發表數據挖掘相關論文數二十余篇，已取得國家發明專利12項，主編《Hadoop大數據分析與挖掘實戰》《Python數據分析與挖掘實戰》《R語言數據分析與挖掘實戰》等多本暢銷圖書，主持并完成科技項目9項。獲得SAS、SPSS數據挖掘認證及Hadoop開發工程師證書，具有電力、電信、銀行、制造企業、電子商務和電子政務的項目經驗和行業背景。

商品評論(0條)

寫書評賺書幣

暫無評論……

書友推薦

>
回憶愛瑪儂
回憶愛瑪儂
[日]梶尾真治著，王瑋譯
¥24.0~~¥32.8~~
>
羅庸西南聯大授課錄
羅庸西南聯大授課錄
羅庸
¥14.1~~¥32.0~~
>
新文學天穹兩巨星--魯迅與胡適/紅燭學術叢書(紅燭學術叢書)
新文學天穹兩巨星--魯迅與胡適/紅燭學術叢書(紅燭學術叢書)
易竹賢
¥9.9~~¥23.0~~
>
中國人在烏蘇里邊疆區:歷史與人類學概述
中國人在烏蘇里邊疆區:歷史與人類學概述
[蘇]阿爾謝尼耶夫著，劉宇譯
¥21.6~~¥48.0~~
>
人文閱讀與收藏·良友文學叢書:一天的工作
人文閱讀與收藏·良友文學叢書:一天的工作
魯迅
¥15.7~~¥45.8~~
>
有舍有得是人生
有舍有得是人生
梁實秋
¥25.7~~¥45.0~~
>
推拿
推拿
畢飛宇
¥12.2~~¥32.0~~
>
月亮與六便士
月亮與六便士
毛姆
¥19.1~~¥42.0~~