-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
數據分析與R語言 版權信息
- ISBN:9787030707819
- 條形碼:9787030707819 ; 978-7-03-070781-9
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
數據分析與R語言 內容簡介
本書通過大量的實例,循序漸進、全面系統地講解了R語言的基礎知識,以及運用R命令解決數據分析和處理中的技巧和方法。 本書分為4部分,共17章。第1部分為R語言基礎知識,旨在讓讀者熟練掌握工具的使用方法與語法規則,為后續的數據處理打好基礎。這部分的主要內容包括R軟件的下載與安裝、數據管理元素的創建和使用、數據包的安裝與加載、流程控制。第2部分為R繪圖,數據可視化有助于用戶對數據快速做出判斷。這部分介紹R基礎繪圖和高級繪圖兩種方法,運用實例講解常用圖形的繪制方法,包括散點圖、折線圖、條形圖、直方圖、密度圖、箱線圖等基本圖形,還包括熱圖、詞云圖、韋恩圖、小提琴圖等高級圖形。第3部分為統計分析,主要內容包括統計描述、假設檢驗、回歸分析、主成分分析和因子分析、生存分析。第4部分為數據分析與預測,介紹數據預處理的常用解決方法及幾個主要的機器學習算法。 本書適用于統計分析和數據可視化的初學者,既可作為從事數據分析和數據管理工作人員的參考用書,也可作為理工、生物等專業學生的教材或參考書。
數據分析與R語言 目錄
第1章 R概述
1.1 R軟件的下載與安裝
1.2 獲得幫助
1.3 R包
1.3.1 本地庫中的R包
1.3.2 安裝R包
1.3.3 加載R包
1.3.4 維護R包
第2章 數據管理
2.1 數據對象的創建與刪除
2.2 對象的類型與運算符
2.3 數據結構
2.3.1 向量
2.3.2 矩陣和數組
2.3.3 時間序列
2.3.4 因子
2.3.5 列表
2.3.6 數據框
2.4 讀寫文件數據
2.4.1 工作路徑
2.4.2 內置數據集
2.4.3 讀寫文本文件
第3章 流程控制
3.1 分支語句
3.1.1 if-else語句
3.1.2 switch語句
3.2 循環語句
3.2.1 repeat循環語句
3.2.2 while循環語句
3.2.3 for循環語句
3.2.4 replication高級循環
3.3 自定義函數
3.4 程序運行時間與效率
第2部分 R 繪 圖
第4章 基礎繪圖
4.1 圖形參數
4.1.1 設置顏色
4.1.2 選擇顏色組合和調色板
4.1.3 設置繪圖符號及大小
4.1.4 選擇線型和線寬
4.1.5 設置坐標軸
4.1.6 設置圖例
4.2 繪制圖形
4.2.1 散點圖
4.2.2 折線圖
4.2.3 條形圖
4.2.4 直方圖和密度圖
4.2.5 箱線圖
4.2.6 熱圖
4.2.7 散點圖矩陣
4.2.8 詞云圖
4.2.9 韋恩圖
4.2.10 生存函數圖
4.2.11 函數圖像
4.2.12 小提琴圖
4.2.13 三維圖形
4.3 保存和輸出圖形
第5章 高級繪圖
5.1 qplot繪圖
5.2 ggplot2繪圖
5.2.1 圖層構建圖像
5.2.2 幾何對象和統計變換
5.3 繪制圖形
5.3.1 直方圖
5.3.2 密度曲線圖
5.3.3 箱線圖
5.3.4 小提琴圖
5.3.5 火山圖
5.3.6 富集分析氣泡圖
5.3.7 等高圖/等高線
第3部分 統 計 分 析
第6章 統計描述
6.1 描述統計量
6.1.1 集中趨勢
6.1.2 離散趨勢
6.1.3 分布形狀的度量
6.2 數據常用分布、隨機抽樣及正態性檢驗
6.2.1 數據常用分布
6.2.2 隨機抽樣
6.2.3 正態性檢驗
6.3 多元數據分布
6.3.1 二元變量數據分析
6.3.2 多元變量數據分析
6.3.3 探索數據分布
6.4 參數估計
6.4.1 極大似然估計
6.4.2 *小二乘法
6.4.3 EM算法
第7章 假設檢驗
7.1 基本概念
7.2 參數假設檢驗
7.2.1 總體均值的檢驗
7.2.2 總體方差的檢驗
7.3 非參數假設檢驗
7.3.1 Pearson擬合度 檢驗
7.3.2 Kolmogorov-Smirnov檢驗
7.3.3 列聯表的獨立性檢驗
7.3.4 符號檢驗
7.3.5 秩檢驗
7.3.6 多組樣本檢驗
7.4 方差分析
7.4.1 單因素方差分析
7.4.2 雙因素方差分析
第8章 回歸分析
8.1 一元線性回歸
8.2 多元線性回歸
8.2.1 數學模型
8.2.2 顯著性檢驗
8.2.3 預測
8.2.4 修正擬合模型
8.2.5 逐步回歸
8.3 非線性回歸
8.4 廣義線性回歸模型
8.5 Logistic回歸模型
第9章 主成分分析和因子分析
9.1 主成分分析
9.2 因子分析
第10章 生存分析
10.1 基本概念
10.2 生存曲線
第4部分 數據分析與預測
第11章 數據預處理
11.1 異常值與缺失值處理
11.1.1 異常值處理
11.1.2 缺失值處理
11.2 數據標準化
11.2.1 min-max標準化
11.2.2 z-score標準化
11.2.3 歸一化
第12章 分類技術:k近鄰算法(k-NN)
12.1 k-NN算法概述
12.1.1 算法原理
12.1.2 距離計算
12.2 利用k-NN算法診斷糖尿病
12.2.1 數據準備和探索
12.2.2 基于數據構建模型
第13章 分類技術:支持向量機
13.1 SVM模型概述
13.2 核函數
13.3 基于數據訓練模型
13.4 評估模型性能
第14章 決策樹
14.1 決策樹原理
14.1.1 選擇*佳的分割
14.1.2 剪枝策略
14.2 決策樹案例
14.2.1 實現心臟病患病預測
14.2.2 使用C5.0 決策識別高風險銀行貸款
14.2.3 條件推理樹
14.3 隨機森林
14.3.1 基于數據構建模型
14.3.2 模型性能影響因素
14.3.3 評估模型
14.4 梯度提升
14.5 使用隨機森林進行特征選擇
第15章 聚類算法
15.1 層次聚類
15.2 k-means算法
15.3 k-medoids算法
15.4 基于密度的聚類
15.5 期望*大化聚類
第16章 關聯規則
16.1 基本概念
16.2 Apriori算法
16.2.1 數據準備和探索
16.2.2 基于數據訓練模型
第17章 神經網絡
17.1 神經網絡介紹
17.2 神經網絡應用案例
參考文獻
- >
月亮與六便士
- >
史學評論
- >
二體千字文
- >
羅曼·羅蘭讀書隨筆-精裝
- >
我與地壇
- >
回憶愛瑪儂
- >
上帝之肋:男人的真實旅程
- >
我從未如此眷戀人間