-
>
闖進(jìn)數(shù)學(xué)世界――探秘歷史名題
-
>
中醫(yī)基礎(chǔ)理論
-
>
當(dāng)代中國(guó)政府與政治(新編21世紀(jì)公共管理系列教材)
-
>
高校軍事課教程
-
>
思想道德與法治(2021年版)
-
>
毛澤東思想和中國(guó)特色社會(huì)主義理論體系概論(2021年版)
-
>
中醫(yī)內(nèi)科學(xué)·全國(guó)中醫(yī)藥行業(yè)高等教育“十四五”規(guī)劃教材
數(shù)據(jù)采集與預(yù)處理(第2版 ) 版權(quán)信息
- ISBN:9787115657282
- 條形碼:9787115657282 ; 978-7-115-65728-2
- 裝幀:平裝
- 冊(cè)數(shù):暫無(wú)
- 重量:暫無(wú)
- 所屬分類(lèi):>
數(shù)據(jù)采集與預(yù)處理(第2版 ) 本書(shū)特色
1.實(shí)驗(yàn)部署在Linux操作系統(tǒng),同時(shí),教學(xué)資源中提供Windows系統(tǒng)實(shí)驗(yàn),便于不同院校教學(xué)。
2.突出實(shí)踐,增加案例數(shù)量,與更多行業(yè)相結(jié)合,便于學(xué)生掌握數(shù)據(jù)采集與預(yù)處理技術(shù)的應(yīng)用。
3. 配套資源豐富:題庫(kù)、PPT、教案、教學(xué)大綱、授課視頻、實(shí)驗(yàn)指南、課后習(xí)題答案等。
數(shù)據(jù)采集與預(yù)處理(第2版 ) 內(nèi)容簡(jiǎn)介
本書(shū)詳細(xì)闡述了大數(shù)據(jù)領(lǐng)域數(shù)據(jù)采集與預(yù)處理的相關(guān)理論和技術(shù)。全書(shū)共8章,內(nèi)容包括概述、大數(shù)據(jù)實(shí)驗(yàn)環(huán)境搭建、網(wǎng)絡(luò)數(shù)據(jù)采集、分布式消息系統(tǒng)Kafka、日志采集系統(tǒng)Flume、數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)集成、ETL工具Kettle、使用pandas進(jìn)行數(shù)據(jù)清洗。本書(shū)包含豐富的實(shí)踐操作和應(yīng)用案例,以幫助讀者更好地學(xué)習(xí)和掌握數(shù)據(jù)采集與預(yù)處理的關(guān)鍵技術(shù)。 本書(shū)可以作為高等院校大數(shù)據(jù)專(zhuān)業(yè)的大數(shù)據(jù)課程教材,也可供相關(guān)技術(shù)人員參考。
數(shù)據(jù)采集與預(yù)處理(第2版 ) 目錄
1.1 數(shù)據(jù) 1
1.1.1 數(shù)據(jù)的概念 1
1.1.2 數(shù)據(jù)的類(lèi)型 2
1.1.3 數(shù)據(jù)的組織形式 2
1.1.4 數(shù)據(jù)的價(jià)值 2
1.1.5 數(shù)據(jù)爆炸 3
1.2 數(shù)據(jù)分析過(guò)程 3
1.3 數(shù)據(jù)采集與預(yù)處理的任務(wù) 4
1.4 數(shù)據(jù)采集 5
1.4.1 數(shù)據(jù)采集的概念 5
1.4.2 數(shù)據(jù)采集的三大要點(diǎn) 5
1.4.3 數(shù)據(jù)采集的數(shù)據(jù)源 6
1.4.4 數(shù)據(jù)采集方法 7
1.5 數(shù)據(jù)清洗 8
1.5.1 數(shù)據(jù)清洗的應(yīng)用領(lǐng)域 8
1.5.2 數(shù)據(jù)清洗的實(shí)現(xiàn)方式 8
1.5.3 數(shù)據(jù)清洗的內(nèi)容 9
1.5.4 數(shù)據(jù)清洗的注意事項(xiàng) 9
1.5.5 數(shù)據(jù)清洗的基本流程 10
1.5.6 數(shù)據(jù)清洗的評(píng)價(jià)標(biāo)準(zhǔn) 10
1.6 數(shù)據(jù)集成 11
1.7 數(shù)據(jù)轉(zhuǎn)換 11
1.7.1 數(shù)據(jù)轉(zhuǎn)換策略 11
1.7.2 平滑處理 12
1.7.3 規(guī)范化處理 13
1.8 數(shù)據(jù)歸約 14
1.9 數(shù)據(jù)脫敏 16
1.9.1 數(shù)據(jù)脫敏原則 16
1.9.2 數(shù)據(jù)脫敏方法 16
1.10 本章小結(jié) 17
1.11 習(xí)題 17
第2章 大數(shù)據(jù)實(shí)驗(yàn)環(huán)境搭建 19
2.1 Linux操作系統(tǒng)的安裝和使用 19
2.1.1 下載安裝文件 19
2.1.2 Linux操作系統(tǒng)的安裝方式 20
2.1.3 安裝Linux虛擬機(jī) 20
2.1.4 創(chuàng)建hadoop用戶(hù) 29
2.1.5 在Windows操作系統(tǒng)和Linux虛擬機(jī)之間互相復(fù)制文件 29
2.1.6 使用FTP實(shí)現(xiàn)Windows和Linux之間的文件傳輸 31
2.1.7 vim編輯器的安裝和使用 33
2.1.8 設(shè)置中文輸入法 34
2.1.9 常用的Linux命令 36
2.1.10 文件解壓 36
2.1.11 目錄的權(quán)限 37
2.1.12 更新APT 37
2.1.13 Linux操作系統(tǒng)的一些使用技巧 37
2.2 Python的安裝和使用 37
2.2.1 Python簡(jiǎn)介 38
2.2.2 Python的安裝 39
2.2.3 Python的基本使用方法 39
2.2.4 Python基礎(chǔ)語(yǔ)法知識(shí) 40
2.2.5 Python第三方模塊的安裝 43
2.3 JDK的安裝 44
2.4 Hadoop的安裝和使用 45
2.4.1 Hadoop簡(jiǎn)介 45
2.4.2 安裝Hadoop前的準(zhǔn)備工作 46
2.4.3 安裝Hadoop的3種模式 48
2.4.4 下載Hadoop安裝文件 48
2.4.5 偽分布式模式配置 48
2.4.6 分布式文件系統(tǒng)HDFS 51
2.4.7 HDFS的基本使用方法 52
2.5 MySQL數(shù)據(jù)庫(kù)的安裝和使用 53
2.5.1 關(guān)系數(shù)據(jù)庫(kù) 53
2.5.2 關(guān)系數(shù)據(jù)庫(kù)標(biāo)準(zhǔn)語(yǔ)言SQL 55
2.5.3 安裝MySQL 57
2.5.4 MySQL數(shù)據(jù)庫(kù)的使用方法 58
2.5.5 使用Python操作MySQL數(shù)據(jù)庫(kù) 59
2.6 MongoDB的安裝和使用 63
2.6.1 MongoDB簡(jiǎn)介 63
2.6.2 安裝MongoDB 6.0 63
2.6.3 MongoDB基礎(chǔ)操作 65
2.6.4 使用Python操作MongoDB 67
2.7 Redis的安裝和使用 69
2.7.1 Redis簡(jiǎn)介 69
2.7.2 安裝Redis 69
2.7.3 Redis操作實(shí)例 70
2.7.4 使用Python操作Redis數(shù)據(jù)庫(kù) 72
2.8 本章小結(jié) 73
2.9 習(xí)題 73
實(shí)驗(yàn)1 熟悉MySQL和HDFS的操作 73
第3章 網(wǎng)絡(luò)數(shù)據(jù)采集 76
3.1 網(wǎng)絡(luò)爬蟲(chóng)概述 76
3.1.1 網(wǎng)絡(luò)爬蟲(chóng)的定義及工作原理 76
3.1.2 網(wǎng)絡(luò)爬蟲(chóng)的類(lèi)型 77
3.1.3 反爬蟲(chóng)機(jī)制 77
3.1.4 爬取策略制訂 79
3.2 網(wǎng)頁(yè)基礎(chǔ)知識(shí) 80
3.2.1 超文本和HTML 80
3.2.2 HTTP 80
3.3 用Python實(shí)現(xiàn)HTTP請(qǐng)求 81
3.3.1 urllib模塊 81
3.3.2 urllib3模塊 82
3.3.3 requests模塊 82
3.4 定制requests 83
3.4.1 傳遞URL參數(shù) 83
3.4.2 定制請(qǐng)求頭 84
3.4.3 網(wǎng)絡(luò)超時(shí)處理 84
3.5 解析網(wǎng)頁(yè) 85
3.5.1 BeautifulSoup簡(jiǎn)介 85
3.5.2 BeautifulSoup四大對(duì)象 86
3.5.3 遍歷文檔樹(shù) 88
3.5.4 搜索文檔樹(shù) 92
3.5.5 CSS選擇器 95
3.6 綜合實(shí)例 96
3.6.1 實(shí)例1:采集網(wǎng)頁(yè)數(shù)據(jù)保存到文本文件 96
3.6.2 實(shí)例2:采集網(wǎng)頁(yè)數(shù)據(jù)保存到MySQL數(shù)據(jù)庫(kù) 99
3.6.3 實(shí)例3:采集網(wǎng)頁(yè)數(shù)據(jù)保存到MongoDB數(shù)據(jù)庫(kù) 101
3.6.4 實(shí)例4:采集網(wǎng)頁(yè)數(shù)據(jù)保存到Redis數(shù)據(jù)庫(kù) 102
3.7 Scrapy框架 104
3.7.1 Scrapy框架概述 104
3.7.2 XPath語(yǔ)言 105
3.7.3 Scrapy框架應(yīng)用實(shí)例 109
3.8 通過(guò)JSON接口爬取網(wǎng)站數(shù)據(jù) 115
3.8.1 為什么選擇JSON接口 115
3.8.2 通過(guò)JSON接口爬取數(shù)據(jù)的步驟 116
3.8.3 實(shí)例 116
3.9 本章小結(jié) 118
3.10 習(xí)題 119
實(shí)驗(yàn)2 網(wǎng)絡(luò)爬蟲(chóng)初級(jí)實(shí)踐 119
第4章 分布式消息系統(tǒng)Kafka 121
4.1 Kafka簡(jiǎn)介 121
4.1.1 Kafka的特性 121
4.1.2 Kafka的主要應(yīng)用場(chǎng)景 122
4.1.3 Kafka的消息傳遞模式 122
4.2 Kafka在大數(shù)據(jù)生態(tài)系統(tǒng)中的作用 123
4.3 Kafka和Flume的區(qū)別與聯(lián)系 124
4.4 Kafka相關(guān)概念 124
4.5 Kafka的安裝和使用 125
4.5.1 安裝Kafka 125
4.5.2 使用Kafka 126
4.6 使用Python操作Kafka 127
4.7 Kafka與MySQL的組合使用 130
4.8 Kafka采集數(shù)據(jù)保存到MongoDB中 132
4.8.1 任務(wù)描述 132
4.8.2 實(shí)現(xiàn)代碼 132
4.8.3 執(zhí)行過(guò)程 133
4.9 本章小結(jié) 133
4.10 習(xí)題 133
實(shí)驗(yàn)3 熟悉Kafka的基本使用方法 134
第5章 日志采集系統(tǒng)Flume 136
5.1 Flume簡(jiǎn)介 136
5.2 Flume的安裝和使用 137
5.2.1 Flume的安裝 137
5.2.2 Flume的使用 138
5.3 Flume和Kafka的組合使用 139
5.3.1 Flume采集NetCat數(shù)據(jù)到
Kafka 139
5.3.2 Flume采集文件數(shù)據(jù)到Kafka 141
5.3.3 Flume采集MySQL數(shù)據(jù)庫(kù)中的數(shù)據(jù)到Kafka 143
5.4 采集日志文件到HDFS 145
5.4.1 采集目錄到HDFS 145
5.4.2 采集文件到HDFS 147
5.5 采集MySQL數(shù)據(jù)庫(kù)中的數(shù)據(jù)到HDFS 148
5.5.1 準(zhǔn)備工作 149
5.5.2 創(chuàng)建MySQL數(shù)據(jù)庫(kù) 149
5.5.3 配置和啟動(dòng)Flume 149
5.6 Flume多數(shù)據(jù)源應(yīng)用實(shí)例 151
5.6.1 方案設(shè)計(jì) 151
5.6.2 配置Flume 152
5.6.3 執(zhí)行過(guò)程 154
5.7 本章小結(jié) 154
5.8 習(xí)題 155
實(shí)驗(yàn)4 熟悉Flume的基本使用方法 155
第6章 數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)集成 157
6.1 數(shù)據(jù)倉(cāng)庫(kù)的概念 157
6.1.1 傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù) 157
6.1.2 實(shí)時(shí)主動(dòng)數(shù)據(jù)倉(cāng)庫(kù) 158
6.2 數(shù)據(jù)集成 159
6.2.1 數(shù)據(jù)集成方式 159
6.2.2 數(shù)據(jù)分發(fā)方式 160
6.2.3 數(shù)據(jù)集成技術(shù) 160
6.3 ETL 161
6.3.1 ETL簡(jiǎn)介 161
6.3.2 ETL基本模塊 162
6.3.3 ETL模式 163
6.3.4 ETL工具 164
6.4 CDC 165
6.4.1 CDC的特性 165
6.4.2 CDC的組成 166
6.4.3 CDC的具體應(yīng)用場(chǎng)景 166
6.4.4 對(duì)于CDC需要思考和重視的問(wèn)題 167
6.5 本章小結(jié) 168
6.6 習(xí)題 168
第7章 ETL工具Kettle 169
7.1 Kettle的基本概念 169
7.2 Kettle的基本功能 170
7.3 安裝Kettle 172
7.4 數(shù)據(jù)抽取 174
7.4.1 把文本文件導(dǎo)入Excel文件 174
7.4.2 把文本文件導(dǎo)入MySQL數(shù)據(jù)庫(kù) 179
7.4.3 把Excel文件導(dǎo)入MySQL數(shù)據(jù)庫(kù) 183
7.5 數(shù)據(jù)清洗與轉(zhuǎn)換 186
7.5.1 使用Kettle實(shí)現(xiàn)數(shù)據(jù)排序 187
7.5.2 在Kettle中用正則表達(dá)式清洗數(shù)據(jù) 189
7.5.3 使用Kettle去除缺失值記錄 192
7.5.4 使用Kettle轉(zhuǎn)化MySQL數(shù)據(jù)庫(kù)中的數(shù)據(jù) 197
7.6 數(shù)據(jù)加載 203
7.6.1 把本地文件加載到HDFS中 203
7.6.2 把HDFS文件加載到MySQL數(shù)據(jù)庫(kù)中 208
7.7 本章小結(jié) 212
7.8 習(xí)題 212
實(shí)驗(yàn)5 熟悉Kettle的基本使用方法 212
第8章 使用Pandas進(jìn)行數(shù)據(jù)清洗 215
8.1 NumPy的基本使用方法 215
8.1.1 數(shù)組創(chuàng)建 215
8.1.2 數(shù)組索引和切片 217
8.1.3 數(shù)組運(yùn)算 218
8.1.4 數(shù)組對(duì)象的常用函數(shù) 218
8.2 Pandas的數(shù)據(jù)結(jié)構(gòu) 221
8.2.1 Series 221
8.2.2 DataFrame 224
8.2.3 索引對(duì)象 228
8.3 Pandas導(dǎo)入導(dǎo)出數(shù)據(jù) 229
8.3.1 導(dǎo)入與導(dǎo)出Excel文件 229
8.3.2 導(dǎo)入與導(dǎo)出CSV文件 230
8.3.3 導(dǎo)入與導(dǎo)出TXT文件 231
8.3.4 將數(shù)據(jù)導(dǎo)入與導(dǎo)出MySQL數(shù)據(jù)庫(kù) 231
8.4 Pandas的基本功能 233
8.4.1 數(shù)據(jù)拆分與合并 233
8.4.2 重新索引 237
8.4.3 丟棄指定軸上的項(xiàng) 239
8.4.4 索引、選取和過(guò)濾 240
8.4.5 算術(shù)運(yùn)算 241
8.4.6 DataFrame和Series之間的運(yùn)算 241
8.4.7 函數(shù)應(yīng)用和映射 242
8.4.8 排序和排名 243
8.4.9 分組 246
8.4.10 其他常用函數(shù) 248
8.5 匯總和描述統(tǒng)計(jì) 251
8.5.1 與描述統(tǒng)計(jì)相關(guān)的函數(shù) 251
8.5.2 唯一值、值計(jì)數(shù)及成員資格 253
8.6 處理缺失數(shù)據(jù) 254
8.6.1 檢查缺失值 255
8.6.2 清理/填充缺失值 255
8.6.3 排除缺少的值 256
8.7 清洗格式內(nèi)容 257
8.7.1 刪除字符串中的空格 257
8.7.2 清洗大小寫(xiě)混用 258
8.8 綜合實(shí)例 258
8.8.1 Matplotlib的使用方法 258
8.8.2 實(shí)例1:對(duì)食品數(shù)據(jù)集進(jìn)行基本操作 261
8.8.3 實(shí)例2:對(duì)電影數(shù)據(jù)集進(jìn)行清洗 262
8.8.4 實(shí)例3:百度搜索指數(shù)分析 263
8.8.5 示例4:B站數(shù)據(jù)分析 265
8.8.6 實(shí)例5:電影評(píng)分?jǐn)?shù)據(jù)分析 270
8.8.7 實(shí)例6:App行為數(shù)據(jù)預(yù)處理 273
8.9 本章小結(jié) 281
8.10 習(xí)題 281
實(shí)驗(yàn)6 Pandas數(shù)據(jù)清洗初級(jí)實(shí)踐 281
參考文獻(xiàn) 284
數(shù)據(jù)采集與預(yù)處理(第2版 ) 作者簡(jiǎn)介
林子雨,男,博士,國(guó)內(nèi)高校知名大數(shù)據(jù)教師,廈門(mén)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系副教授,廈門(mén)大學(xué)數(shù)據(jù)庫(kù)實(shí)驗(yàn)室負(fù)責(zé)人,中國(guó)計(jì)算機(jī)學(xué)會(huì)數(shù)據(jù)庫(kù)專(zhuān)委會(huì)委員,中國(guó)計(jì)算機(jī)學(xué)會(huì)信息系統(tǒng)專(zhuān)委會(huì)委員,入選“2021年高校計(jì)算機(jī)專(zhuān)業(yè)優(yōu)秀教師獎(jiǎng)勵(lì)計(jì)劃”,榮獲“2022年福建省高等教育教學(xué)成果獎(jiǎng)特等獎(jiǎng)(個(gè)人排名第一)”和“2018年福建省高等教育教學(xué)成果獎(jiǎng)二等獎(jiǎng)(個(gè)人排名第一)”,編著出版12本大數(shù)據(jù)系列教材,被國(guó)內(nèi)500多所高校采用,建設(shè)了國(guó)內(nèi)高校首個(gè)大數(shù)據(jù)課程公共服務(wù)平臺(tái),平臺(tái)累計(jì)網(wǎng)絡(luò)訪(fǎng)問(wèn)量超過(guò)2300萬(wàn)次,成為全國(guó)高校大數(shù)據(jù)教學(xué)知名品牌,主持的課程《大數(shù)據(jù)技術(shù)原理與應(yīng)用》獲評(píng)“2018年國(guó)家精品在線(xiàn)開(kāi)放課程”和“2020年國(guó)家級(jí)線(xiàn)上一流本科課程”,主持的課程《Spark編程基礎(chǔ)》獲評(píng)“2021年國(guó)家級(jí)線(xiàn)上一流本科課程”。
- >
經(jīng)典常談
- >
中國(guó)歷史的瞬間
- >
詩(shī)經(jīng)-先民的歌唱
- >
月亮與六便士
- >
山海經(jīng)
- >
巴金-再思錄
- >
小考拉的故事-套裝共3冊(cè)
- >
史學(xué)評(píng)論