-
>
闖進數學世界――探秘歷史名題
-
>
中醫(yī)基礎理論
-
>
當代中國政府與政治(新編21世紀公共管理系列教材)
-
>
高校軍事課教程
-
>
思想道德與法治(2021年版)
-
>
毛澤東思想和中國特色社會主義理論體系概論(2021年版)
-
>
中醫(yī)內科學·全國中醫(yī)藥行業(yè)高等教育“十四五”規(guī)劃教材
大數據分析處理(慕課版) 版權信息
- ISBN:9787115628275
- 條形碼:9787115628275 ; 978-7-115-62827-5
- 裝幀:平裝-膠訂
- 冊數:暫無
- 重量:暫無
- 所屬分類:>>
大數據分析處理(慕課版) 本書特色
1.信息類名校常州信息職業(yè)技術學院團隊打造
2.崗課賽證,融入“1 X”證書職業(yè)技能等級標準
3.單元任務式寫法,符合職教認知規(guī)律
4.教材編寫融入思政元素
5.校企“雙元”合作開發(fā)新形態(tài)教材
大數據分析處理(慕課版) 內容簡介
本書采用理論知識與任務案例相結合的形式,以PyCharm為主要開發(fā)工具,系統(tǒng)地闡述了大數據分析處理工作流程中的重要步驟,介紹了大數據分析過程中常用的幾種第三方庫。本書共13個單元,第1單元介紹了大數據分析處理的概念;第2、3單元介紹了大數據分析中科學計算與統(tǒng)計分析的相關知識;第4-7單元介紹了使用Pandas實現數據預處理的方法;第8單元介紹了使用Scikit-learn實現簡單的機器學習的方法;第9單元介紹了使用Matplotlib、Seaborn繪制圖表的方法;第10-13單元分別介紹了4個大數據分析處理的綜合案例。單元1-9中,每個單元都包含了相關知識部分和任務實現部分,任務實現部分一般包含多個任務的具體實現過程,每個任務后面都有課堂實踐,通過完成實踐操作,讀者可以進一步鞏固所學知識。 本書既可作為高等院校大數據技術專業(yè)的教材,也可作為大數據愛好者的自學書籍。
大數據分析處理(慕課版) 目錄
單元1 大數據分析概述 1
學習目標 1
相關知識 1
1. 大數據分析的概念 1
2. 大數據分析的產生與發(fā)展過程 2
3. 大數據分析的應用場景 3
4. 大數據分析流程 4
5. 傳統(tǒng)的分析統(tǒng)計工具 9
6. 大數據處理編程語言 9
7. 大數據分析實用工具 10
任務實現 11
任務1.1根據業(yè)務需求選擇合適的大數據分析技術 11
1.1.1 業(yè)務需求分析 11
1.1.2 選擇大數據分析技術 12
任務1.2 使用 pip和Pycharm完成 Python包的管理 13
1.2.1 了解Python常用庫 13
1.2.2 使用pip命令安裝、卸載Python包 14
1.2.3 使用Pycharm平臺安裝、卸載Python包 16
思政園地 19
單元小結 20
課后習題 20
單元2 NumPy科學計算基礎 22
學習目標 22
相關知識 22
1.NumPy與ndarray對象 22
2.創(chuàng)建ndarray數組的函數 23
3.ndarray對象的數據類型 23
4.數組的矢量化運算 24
5.廣播機制 25
6.數組與標量的運算 26
7.NumPy通用函數 26
8.NumPy的統(tǒng)計與排序方法 27
9.NumPy的numpy.linalg模塊 29
任務實現 29
任務2.1 保存考試成績—創(chuàng)建一個數組 29
2.1.1 使用函數創(chuàng)建數組 29
2.1.2 掌握隨機數模塊的使用 32
任務2.2 查看考試成績數據類型—查看數組的數據類型 35
2.2.1 查看數據類型 35
2.2.2 實現數據類型轉換 36
任務2.3 對兩門課成績進行相加—實現數組運算 37
2.3.1 實現矢量化運算 37
2.3.2 實現數組廣播 38
2.3.3 實現數組與標量間的運算 39
任務2.4 對考試成績進行計算—使用NumPy通用函數實現數組計算 39
2.4.1 一元通用函數的使用 40
2.4.2 二元通用函數的使用 40
任務2.5對考試成績進行統(tǒng)計排序—利用NumPy數組進行數據處理 42
2.5.1 變換數組的形態(tài) 42
2.5.2 實現數組統(tǒng)計 44
2.5.3 實現數組排序 47
任務2.6 對多門課成績進行計算—使用NumPy的線性代數模塊處理矩陣 49
2.6.1 計算對角線元素和 49
2.6.2 實現矩陣乘法 49
思政園地 50
單元小結 51
課后習題 51
單元3 Pandas統(tǒng)計分析基礎 53
學習目標 53
相關知識 53
1. Pandas與Pandas的數據類型 53
2.創(chuàng)建Series和DataFrame的函數 55
3.索引與切片 56
4.排序算法與實現排序的方法 56
5.統(tǒng)計學與實現統(tǒng)計的方法 56
任務實現 57
任務3.1 用不同方式創(chuàng)建系列——創(chuàng)建Series 57
3.1.1 創(chuàng)建一個空的Series 57
3.1.2 使用ndarray對象創(chuàng)建一個Series 58
3.1.3 使用字典創(chuàng)建一個Series 58
3.1.4 使用標量創(chuàng)建一個Series 59
任務3.2 用不同方式創(chuàng)建數據幀——創(chuàng)建DataFrame 59
3.2.1 使用字典創(chuàng)建數據幀 59
3.2.2 使用csv文件創(chuàng)建DataFrame 62
3.2.3 在DataFrame中插入列和行 63
任務3.3 訪問和提取隨機數據——使用DataFrame進行索引與切片 65
3.3.1 使用索引訪問數據 65
3.3.2 使用切片提取部分數據 66
任務3.4 對學生數據進行排序—實現數據排序 67
3.4.1 使用sort、sort_index、sort_values實現數據排序 67
3.4.2 控制排序順序 69
3.4.3 設置排序算法 71
任務3.5 進行隨機數據統(tǒng)計—實現數據統(tǒng)計 72
3.5.1 使用Pandas的統(tǒng)計方法進行統(tǒng)計 72
3.5.2 使用describe方法描述數據 76
思政園地 77
單元小結 77
課后習題 78
目錄
單元4 數據加載與存儲 80
學習目標 80
相關知識 80
1. 常用的數據文件類型 80
2.文本文件讀取和寫入 81
3.Excel文件讀取和寫入 83
4. 數據庫文件讀取和寫入 85
任務實現 88
任務4.1 讀取并存儲城市經緯度數據-txt文件讀寫 88
4.1.1 讀取txt文件中數據 89
4.1.2 將數據寫入txt文件 91
任務4.2 讀取并存儲招聘數據-csv文件的讀寫 92
4.2.1 讀取csv文件數據 93
4.2.2 將數據寫入csv文件 94
任務4.3 讀取并存儲用戶數據-Excel文件的讀寫 96
4.3.1 讀取Excel文件工作表數據 96
4.3.2 將數據寫入Excel文件的工作表中 96
任務4.4 讀取商品類別數據并存儲賬戶數據-MySQL數據庫讀寫 96
4.4.1 連接MySQL數據庫 96
4.4.2 從MySQL數據庫讀取數據 96
4.4.3 存儲數據到MySQL數據庫 96
思政園地 96
單元小結 96
課后習題 96
目錄
單元5 數據質量與數據清洗 110
學習目標 110
相關知識 110
1.企業(yè)數據管理現狀 110
2.數據標準 111
3.數據質量的定義 111
4.常用的數據質量檢測手段 113
5.數據質量管理的必要性 113
6. 缺失值 114
7. 重復值 115
8. 異常值 117
任務實現 120
任務5.1 醫(yī)藥銷售數據遺漏檢查-缺失值處理 120
5.1.1 發(fā)現缺失值 121
5.1.2 處理缺失值 123
任務5.2 醫(yī)藥銷售數據去重校驗-重復值處理 125
5.2.1 重復值判斷和查看 125
5.2.2 處理記錄重復值 126
5.2.3 處理特征重復值 127
任務5.3 醫(yī)藥銷售數據異常值排除-異常值處理 130
5.3.1 異常值識別 131
5.3.2 異常值處理 132
思政園地 133
單元小結 133
課后習題 134
單元6 數據合并與轉換 136
學習目標 136
相關知識 136
1.concat()函數 136
2.append()方法 138
3.merge()函數 138
4.join()方法 141
5.combine_first()方法 142
6.map()方法 143
7.cut()函數 143
8.qcut()函數 144
任務實現 145
任務6.1 堆疊學生信息和考試成績數據—實現數據堆疊 145
6.1.1 實現數據橫向堆疊 145
6.1.2 實現數據縱向堆疊 146
任務6.2 連接學生信息和考試成績數據—實現數據連接 148
6.2.1 使用merge()函數實現數據連接 148
6.2.2 使用join()方法實現數據連接 150
6.2.3 使用combine_first()方法重疊合并數據 151
任務6.3 對學生考試成績進行等級轉換—實現數據映射轉換 152
6.3.1 使用自定義函數映射轉換數據 152
6.3.2 使用字典映射轉換數據 153
6.3.3 使用lambda表達式映射轉換數據 154
任務6.4 對學生考試成績進行離散化—實現數據離散化 155
6.4.1 實現數據等寬離散化 155
6.4.2 實現數據等頻離散化 156
思政園地 157
單元小結 157
課后習題 158
單元7 數據分組與聚合 160
學習目標 160
相關知識 160
1.數據分組的概念 160
2.GroupBy機制 161
3.數據分組的原則和依據 161
4.數據分組的方法與體系 162
5.數據聚合的概念 163
6. agg和aggregate函數 163
7. apply函數 163
8. transform函數 163
任務實現 164
任務7.1 簡單數據表處理-數據分組 164
7.1.1 數據分組方法 164
7.1.2 實現Pandas 數據分組 166
任務7.2 人員得分表處理-數據聚合 172
7.2.1 實現agg聚合 172
7.2.2 實現apply聚合 175
7.2.3 實現transform聚合 179
思政園地 181
單元小結 182
課后習題 182
單元8 Scikit-learn機器學習 184
學習目標 184
相關知識 184
1.機器學習的概念 184
2.機器學習的基本術語 185
3.機器學習的分類與應用 185
4.假設空間 185
5.歸納偏好 186
6.Sklearn 187
7.劃分數據集函數 188
8.preprocessing模塊 189
9.標準化和歸一化 190
10.降維 190
11.線性回歸 191
12.邏輯回歸 192
13.K-means算法 194
14.樸素貝葉斯 195
15.支持向量機算法 198
任務實現 201
任務8.1 使用sklearn處理iris數據集—使用sklearn處理數據 201
8.1.1 導入數據集 201
8.1.2 劃分訓練集和測試集 202
任務8.2 boston數據集預處理和降維—數據集預處理 202
8.2.1 實現數據標準化 202
8.2.2 實現數據歸一化 202
8.2.3 實現PCA降維 202
任務8.3 構建并評價boston回歸模型—回歸模型分析與預測 202
8.3.1 實現線性回歸 202
8.3.2 實現支持向量機算法 202
任務8.4 構建并評價iris分類模型—分類模型分析與預測 202
8.4.1 實現邏輯回歸分類 202
8.4.2 實現樸素貝葉斯算法 202
任務8.5 構建并評價iris聚類模型—聚類模型分析與評價 202
8.5.1 實現K-means算法 202
8.5.2 評價K-means算法 202
思政園地 202
單元小結 202
課后習題 202
單元9 使用統(tǒng)計圖表展示數據 225
學習目標 225
相關知識 225
1. 數據可視化的概念 225
2. 數據可視化設計過程 226
3. 基本圖表類型及使用場景 227
4. pyplot基礎語法 229
5. rc參數 230
6. 繪制線圖的函數plot 231
7. 繪制柱狀圖的函數bar 232
8. 繪制直方圖的函數hist 232
9. 繪制餅圖的函數pie 233
10. 繪制散點圖的函數scatter 233
11. 子圖的概念 234
12. Seaborn 235
任務實現 236
任務9.1 使用線圖展示水果銷量變化曲線—掌握matplotlib基礎語法 236
9.1.1 掌握pyplot基礎語法 236
9.1.2 設置pyplot的動態(tài)rc參數 237
任務9.2 使用常用圖表展示多個品牌汽車銷售額—繪制常見圖表 239
9.2.1 繪制線圖 239
9.2.2 繪制柱狀圖 241
9.2.3 繪制直方圖 243
9.2.4 繪制餅圖 244
9.2.5 繪制散點圖 246
任務9.3 使用子圖展示就業(yè)率數據—創(chuàng)建子圖 248
9.3.1數據分析與子圖設計 249
9.3.2 實現子圖的創(chuàng)建 250
任務9.4 使用Seaborn展示汽車數據的分布與相關性—使用Seaborn繪制圖表 252
9.4.1 使用Seaborn繪制直方圖 252
9.4.2 使用Seaborn繪制熱力圖 253
思政園地 255
單元小結 256
課后習題 256
單元10 某地區(qū)電力公司用戶付費行為預測 258
任務10.1 案例背景概述 258
10.1.1項目目標 258
10.1.2相關背景業(yè)務知識 258
10.1.3數據采集和理解 258
任務10.2 電力數據預處理 259
10.2.1按賬戶和日期排序 260
10.2.2統(tǒng)計每個賬戶每個月各種賬戶活動發(fā)生的數量 261
10.2.3計算當月月底的賬戶余額 262
10.2.4計算當月月底賬戶余額,按下月10日前計算的賬戶余額 263
10.2.5計算每個賬戶每個月的用電量和繳費量 264
10.2.6合并整理為新的用戶繳費明細和用電量明細表 265
10.2.7數據中空值的處理 265
任務10.3 模型建立與評估 265
10.3.1數據特征的轉換 265
10.3.2邏輯回歸模型建立與評估 265
10.3.3支持向量機模型建立與評估 265
單元11 《你好,舊時光》文本挖掘分析 275
任務11.1 案例背景概述 275
11.1.1項目目標 275
11.1.2相關背景知識 275
11.1.3實驗準備 276
任務11.2 文本數據準備與處理 277
11.2.1讀入數據與基本處理 277
11.2.2創(chuàng)建停用詞 277
11.2.3找出章節(jié)的頭部索引和尾部索引 277
11.2.4 繪制章節(jié)段數與字數折線圖 278
任務11.3 文本分詞與詞云繪制 278
11.3.1全文分詞 278
11.3.2統(tǒng)計詞頻與長度 279
11.3.3繪制高頻詞圖 279
11.3.4詞云繪制 280
任務11.4 關系網絡探索 280
11.4.1 計算段落權重 280
11.4.2 繪制人物關系圖 282
任務11.5 聚類分析 283
11.5.1計算tf-idf得到詞向量矩陣 283
11.5.2獲得所有特征項 284
11.5.3 k均值聚類 284
11.5.4 聚類結果可視化 285
11.5.5 層次聚類 285
單元12 基于大數據可視化的城市通勤特征分析研究 287
任務12.1 案例背景概述 287
12.1.1項目目標 287
12.1.2相關背景知識 287
任務12.2 原始數據預處理 287
12.2.1數據的載入 288
12.2.2站點信息處理 289
12.2.3地鐵刷卡記錄處理 290
12.2.4 合并通勤記錄 291
12.2.5 虛擬換乘站點數據合并 292
任務12.3 詞云圖的繪制 295
12.3.1載入數據 295
12.3.2 設置文字云圖各項參數 296
12.3.3 繪制詞云圖 296
任務12.4 繪制起終點分布連線圖 296
12.4.1 載入數據 296
12.4.2 統(tǒng)計頻數并篩選 296
12.4.3 完成繪圖 296
任務12.5 繪制早高峰地鐵刷卡進出站分布圖 296
12.5.1載入數據 296
12.5.2統(tǒng)計出入站的頻次 296
12.5.3設置圖形選項參數并畫圖 296
任務12.6職住地識別與城市規(guī)劃對比分析 296
12.6.1載入數據 296
12.6.2統(tǒng)計居住地和工作地的出入站頻次 296
12.6.3進行區(qū)域中心分析 296
任務13.1 案例背景概述 312
13.1.1項目目標 312
13.1.2相關背景知識 312
任務13.2 網絡數據爬取 312
13.2.1查看要爬取的網頁結構 312
13.2.2提取此網頁中的新聞標題 313
任務13.3 中文文本處理 314
13.3.1中文分詞 315
13.3.2將分詞后得到的詞組轉換為向量 316
任務13.4 機器學習做情感分析 318
13.4.1 樣本拆分 318
13.4.2 模型訓練與評價 318
任務13.5 作詞云圖 321
13.5.1載入數據 321
13.5.2分詞 321
13.5.3繪制詞云圖 322
大數據分析處理(慕課版) 作者簡介
永洪 常州信息職業(yè)技術學院大數據技術專業(yè)負責人,具有豐富大數據技術專業(yè)相關教學和科研工作經驗,為國家級教學團隊成員、國家級職業(yè)教育教師教學創(chuàng)新團隊成員、江蘇省高校“青藍工程”優(yōu)秀青年骨干教師、江蘇省優(yōu)秀畢業(yè)設計團隊指導老師;參與國家精品資源共享課、國家在線開放課、軟件技術專業(yè)國家教學資源庫、省在線開放課程等建設;獲江蘇省教學成果一等獎一項、二等獎一項。主要講授大數據分析處理、數據庫管理與應用、C#應用開發(fā)、UML建模與設計模式、Web前端開發(fā)等課程;參與編寫國家規(guī)劃教材《軟件開發(fā)與項目管理》、《信息技術基礎》,主編高職高專規(guī)劃教材《XML案例教材》,主編常州信息職業(yè)技術學院精品教材《.NET Web應用開發(fā)》。
- >
朝聞道
- >
莉莉和章魚
- >
名家?guī)阕x魯迅:故事新編
- >
山海經
- >
中國歷史的瞬間
- >
羅曼·羅蘭讀書隨筆-精裝
- >
隨園食單
- >
姑媽的寶刀