-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
大數據應用人才培養系列教材R語言/劉鵬 版權信息
- ISBN:9787302494324
- 條形碼:9787302494324 ; 978-7-302-49432-4
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
大數據應用人才培養系列教材R語言/劉鵬 本書特色
該書深入淺出地介紹 R 語言在大數據分析應用中的相關知識及編程。 基礎篇:討論數據處理的R環境,包括R數據結構(數據框、列表等)、數據導入/導出、數據清洗(處理數據的缺失值、不一致、異常值)、數據變換(匯總、集成、透視表、規約等)、可視化、高級語言編程、數據分析常用建模方法和原理,涵蓋了目前數據挖掘的主要算法,包括分類與預測、聚類分析、關聯規則、智能推薦和時序模式,利用可視化數據挖掘包Rattle進行試驗指導。 應用篇:討論2個經典的數據分析報告案例,通過案例分析使讀者能夠把學到的R基礎知識應用到解決實際問題中,把數據變成價值。 進階篇:解決R語言在處理大數據時性能低下的問題,討論了兩個R包:RHadoop、SparkR。 本書注重實踐;注重數據變成價值;注重大數據的分析。 本書分為基礎篇、應用篇和進階篇。注重實踐;注重數據變成價值;注重大數據的分析。
大數據應用人才培養系列教材R語言/劉鵬 內容簡介
近年來,R語言可謂是數據分析的熱門語言,相關的資料五花八門,讓讀者難以抉擇。本書力求用簡潔、精練,以理論與實踐相結合的方式讓大家快速掌握R語言。 全書共14章,章為緒論,從數學、統計學和邏輯學3個方面探討了樹立正確數據思維的一些原則;其余各章分為基礎篇(第2~10章)、應用篇(1、12章)和進階篇(3、14章)。基礎篇按照數據分析過程,主要討論了R的數據結構、數據導入/導出、數據清洗、數據變換、可視化、不錯語言編程和常用建模方法。應用篇通過對2個經典案例的分析,使讀者能夠把學到的R基礎知識應用到解決實際問題,把數據變成價值。進階篇解決如何用R處理大數據的一些技術。 本書可用作培養應用型人才的課程教材,也可作為數據分析愛好者的參考資料。
大數據應用人才培養系列教材R語言/劉鵬 目錄
1.1 為什么學習R語言 1
1.1.1 R是什么 1
1.1.2 R語言主要優勢 2
1.2 正確的數據思維觀 4
1.2.1 數學思維 5
1.2.2 統計思維 5
1.2.3 邏輯思維 10
習題 12
基礎篇
第2章 R語言入門
2.1 新手上路 17
2.1.1 兩個例子 17
2.1.2 R是什么 19
2.2 R語言開發環境部署 19
2.2.1 安裝R 19
2.2.2 安裝RStudio 20
2.3 獲取幫助 22
2.3.1 文檔和搜索 22
2.3.2 演示 22
2.3.3 幫助函數 23
2.4 工作空間 23
2.5 腳本 24
2.6 R包 25
習題 25
第3章 數據類型
3.1 變量與常量 27
3.1.1 變量 27
3.1.2 常量 28
3.2 結構類型 28
3.2.1 向量 29
3.2.2 矩陣 31
3.2.3 數組 33
3.2.4 數據框 35
3.2.5 因子 36
3.2.6 列表 37
3.3 字符串操作 38
3.3.1 基本操作 38
3.3.2 字符串處理stringr包 39
3.4 用于數據處理和轉換的常用函數 40
習題 41
第4章 數據準備
4.1 數據導入 43
4.1.1 鍵盤輸入數據 44
4.1.2 導入文本文件 45
4.1.3 導入Excel數據 46
4.1.4 導入數據庫文件 47
4.2 數據導出 48
4.2.1 導出文本文件 48
4.2.2 保存圖片 49
習題 49
第5章 數據可視化
5.1 低水平繪圖命令 51
5.1.1 點 51
5.1.2 線 54
5.1.3 面 56
5.2 高水平繪圖命令 59
5.2.1 認識ggplot2 59
5.2.2 幾何對象 59
5.2.3 映射 60
5.2.4 統計對象 62
5.2.5 標度 63
5.2.6 分面 65
5.2.7 其他修飾 67
5.3 交互式繪圖命令 69
5.3.1 rCharts包 69
5.3.2 plotly包 70
5.3.3 shiny 72
習題 80
第6章 數據探索
6.1 缺失值分析 82
6.1.1 與缺失值相關的幾個概念 82
6.1.2 缺失值檢測 83
6.2 異常值分析 84
6.2.1 箱線圖檢驗離群點 85
6.2.2 散點圖檢測離群點 86
6.2.3 LOF方法檢測異常值 87
6.2.4 聚類方法檢測異常值 87
6.3 不一致值分析 88
6.4 數據的統計特征分析 88
6.4.1 分布分析 88
6.4.2 對比分析 90
6.4.3 統計量分析 91
6.4.4 周期性分析 93
6.4.5 相關性分析 94
習題 97
第7章 數據變換
7.1 數據清洗 100
7.1.1 缺失數據處理 100
7.1.2 數據去重 101
7.1.3 規范化 102
7.2 數據選擇 103
7.2.1 刪除有75%以上相同數值的自變量 103
7.2.2 刪除高相關性的自變量 104
7.2.3 重要變量的選擇 105
7.2.4 數據集選擇 106
7.2.5 主成分分析 106
7.2.6 因子分析 108
7.3 數據集成 109
7.3.1 通過向量化重構數據 109
7.3.2 為數據添加新變量 110
7.3.3 數據透視表 112
7.3.4 頻度 117
7.3.5 數據整合 118
7.3.6 分組匯總 121
習題 124
第8章 高級編程
8.1 控制結構 126
8.1.1 選擇結構程序設計 126
8.1.2 循環結構程序設計 127
8.2 用戶自定義函數 128
習題 129
第9章 數據建模
9.1 Rattle包 132
9.2 聚類模型 139
9.2.1 背景 139
9.2.2 K-Means聚類 139
9.2.3 Ewkm聚類 142
9.2.4 層次聚類(Hierachical) 144
9.2.5 雙向聚類(BiCluster) 146
9.3 關聯分析模型 147
9.3.1 背景 147
9.3.2 基本術語 148
9.3.3 關聯規則的分類 149
9.3.4 Apriori算法 150
9.3.5 實驗指導 151
9.4 傳統決策樹模型 153
9.4.1 背景 153
9.4.2 ID3算法 155
9.4.3 C4.5算法 156
9.4.4 實驗指導 156
9.5 隨機森林決策樹模型 159
9.5.1 背景 159
9.5.2 隨機森林算法 159
9.5.3 實驗指導 161
9.6 自適應選擇決策樹模型 164
9.6.1 背景 164
9.6.2 Boosting算法 164
9.6.3 adaboost算法 165
9.6.4 實驗指導 165
9.7 SVM 169
9.7.1 背景 169
9.7.2 SVM算法 169
9.7.3 實驗指導 172
9.8 線性回歸模型 173
9.8.1 背景 173
9.8.2 一元線性回歸方法 173
9.8.3 實驗指導 175
9.9 神經網絡模型 175
9.9.1 背景 175
9.9.2 人工神經網絡模型 176
9.9.3 實驗指導 179
習題 181
第10章 模型評估
10.1 數據集 185
10.2 混淆矩陣 186
10.2.1 二分類混淆矩陣 186
10.2.2 模型評價指標 187
10.2.3 多分類混淆矩陣 188
10.3 風險圖 188
10.3.1 風險圖的作用 188
10.3.2 實驗指導 189
10.4 ROC曲線 191
10.4.1 什么是ROC曲線 191
10.4.2 ROC曲線作用 191
10.4.3 實驗指導 191
習題 193
應用篇
第11章 影響大學平均錄取分數線因素分析
11.1 背景與目標 197
11.2 數據說明 197
11.3 描述性分析 200
11.4 總結與建議 203
第12章 收視率分析
12.1 背景介紹 204
12.2 數據說明 204
12.3 描述性分析 205
12.4 總結與建議 211
進階篇
第13章 RHadoop
13.1 認識RHadoop 215
13.1.1 為什么要讓Hadoop結合R語言 215
13.1.2 Mahout與R在做數據挖掘的區別 216
13.2 RHadoop安裝 216
13.2.1 依賴包安裝 216
13.2.2 RHadoop的特點 219
13.3 綜合練習 220
習題 225
第14章 SparkR
14.1 認識SparkR 228
14.1.1 安裝SparkR 228
14.1.2 在R或Rstudio中調用SparkR 228
14.2 SparkDataFrame 229
14.3 SparkR支持的機器學習算法 230
14.4 綜合練習 230
14.4.1 加載數據 230
14.4.2 SparkDataFrame基本操作 231
14.4.3 從Spark上運行SQL查詢 233
14.4.4 SparkR操作hdfs上的文件 233
14.4.5 通過SparkR操作spark-sql以hive的表為對象 234
習題 234
參考文獻
附錄 大數據和人工智能實驗環境
大數據應用人才培養系列教材R語言/劉鵬 作者簡介
李法平- 副教授/系統分析師,碩士,重慶電子工程職業學院軟件學院移動應用開發教研室主任,主要從事高職軟件類專業教學研究、教育信息化系統和企業信息化系統等應用技術研究。
- >
名家帶你讀魯迅:故事新編
- >
山海經
- >
朝聞道
- >
【精裝繪本】畫給孩子的中國神話
- >
中國人在烏蘇里邊疆區:歷史與人類學概述
- >
龍榆生:詞曲概論/大家小書
- >
羅庸西南聯大授課錄
- >
二體千字文