-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
高等職業教育系列教材數據清洗(高等職業教育系列教材) 版權信息
- ISBN:9787111657156
- 條形碼:9787111657156 ; 978-7-111-65715-6
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
高等職業教育系列教材數據清洗(高等職業教育系列教材) 本書特色
適讀人群 :高職高專院校大數據技術與應用、軟件技術、信息管理、計算機網絡等專業的學生1)采用“理實一體化”的教學方式,既有教師授課部分又有讓學生獨立思考、上機操作的內容。 2)包含豐富的教學資源,本書配有微課視頻、教學課件、習題答案等。 3)緊跟時代潮流,注重技術變化,書中包含了*新的大數據分析知識及一些開源庫的使用。 4)編寫本書的教師都具有多年的教學經驗,重難點突出,能夠激發學生的學習熱情。
高等職業教育系列教材數據清洗(高等職業教育系列教材) 內容簡介
《數據清洗》主要介紹數據清洗技術的基本概念與應用。全書共有8章,分別講述了數據清洗基礎、數據清洗方法、文件類型、數據采集與抽取、Excel數據清洗與轉換、ETL數據清洗與轉換、Python數據清洗、R語言數據清洗。 《數據清洗》將理論與實踐操作相結合,通過大量的案例幫助讀者快速了解和應用大數據清洗的相關技術。針對書中重要的、核心的知識點,提供了較多的練習,幫助讀者達到熟練應用的目的。 《數據清洗》可作為高職高專院校大數據技術與應用、軟件技術、信息管理、計算機網絡等專業的專業課教材,也可作為大數據愛好者的參考書。
高等職業教育系列教材數據清洗(高等職業教育系列教材) 目錄
前言
第1章 數據清洗基礎
11 數據清洗概述
111 數據清洗的定義
112 數據清洗的對象
113 數據清洗的原理
114 數據清洗的評估
115 數據清洗的框架模型
116 數據清洗研究與應用展望
117 數據清洗的行業發展
12 數據標準化
121 數據標準化簡介
122 數據標準化方法
123 數據標準化的實例
13 數據清洗的常用工具
14 實訓1 安裝和運行Kettle
15 實訓2 安裝和運行OpenRefine
16 實訓3 安裝和運行Python 3
17 小結
習題1
第2章 數據清洗方法
21 數據質量
211 數據質量的定義
212 數據質量中的常見術語
22 數據預處理
221 數據預處理簡介
222 數據預處理方法
23 數據清洗方法
231 數據缺失值的處理方法
232 噪聲數據的處理方法
233 冗余數據的處理方法
234 數據格式與內容的處理方法
24 數據清洗中的統計學基礎
25 實訓1 找出離群點
26 實訓2 找出統計對象
27 實訓3 找出數據清洗的步驟
28 實訓4 找出異常數據
29 小結
習題2
第3章 文件類型
31 文件格式
311 文件格式概述
312 Windows中常見的文件格式
32 數據類型與字符編碼
321 數據類型概述
322 字符編碼
323 用Python讀取文件
324 數據轉換
33 數據轉換的實現
331 用Python生成與讀取CSV文件
332 用Python讀取與轉換JSON文件
34 實訓1 將XML文件轉換為JSON文件
35 實訓2 將JSON文件轉換為CSV文件
36 小結
習題3
第4章 數據采集與抽取
41 數據采集概述
411 了解數據采集
412 日志數據采集與處理的常見方法
413 數據采集平臺
414 數據采集工具
42 網頁數據采集與實現
421 網絡爬蟲概述
422 網頁數據采集的實現
43 數據抽取
431 數據抽取概述
432 文本數據抽取
433 網頁數據抽取
44 實訓1 使用Kettle抽取本地XML文件
45 實訓2 使用Kettle抽取CSV數據并輸出為文本文件
46 小結
習題4
第5章 Excel數據清洗與轉換
51 Excel數據清洗概述
511 Excel簡介
512 Excel數據清洗與轉換方法
52 Excel數據清洗與轉換的實現
521 常用數據分析函數介紹
522 刪除重復行
523 文本查找和替換
524 數據替換
525 字符串截取
526 字母大小寫轉換
527 刪除空格和非打印字符
528 數字和數字符號的轉換
529 日期和時間處理
5210 合并和拆分列
5211 數據的轉置
5212 數據查詢和引用
53 實訓1 清洗簡單數據
54 實訓2 清洗復雜數據
55 小結
習題5
第6章 ETL數據清洗與轉換
61 數據倉庫與ETL
611 數據倉庫
612 ETL概述
62 Kettle數據清洗與轉換基礎
621 Kettle數據清洗
622 Kettle數據轉換
63 Kettle數據倉庫高級應用
64 實訓1 在Kettle中識別流的*后一行并寫入日志
65 實訓2 在Kettle中用正則表達式清洗數據
66 實訓3 使用Kettle過濾數據表
67 實訓4 使用Kettle生成隨機數并相加
68 小結
習題6
第7章 Python數據清洗
71 Python數據清洗基礎
711 Python語言基礎
712 Python數據清洗所用庫
72 數據讀寫、選擇、整理和描述
721 從CSV文件讀取數據
722 寫入數據到CSV文件
723 數據整理和描述
73 數據分組、分割、合并和變形
731 數據分組
732 數據分割
733 數據合并
734 數據變形
74 缺失值、異常值和重復值處理
741 缺失值處理
742 異常值檢測和過濾
743 移除重復數據
75 時間序列處理
751 Python的日期與時間工具
752 Pandas時間序列數據結構
76 字符串處理
761 Python字符串方法列表
762 Python正則表達式
763 Pandas的字符串方法
77 實訓1 清洗企業員工信息
78 實訓2 清洗在校生飲酒消費數據
79 小結
習題7
第8章 R語言數據清洗
81 R語言簡介
82 R語言基礎
821 R語言運算符號
822 R語言數據類型
83 R語言datatable數據包
831 datatable數據包介紹
832 創建datatable對象
高等職業教育系列教材數據清洗(高等職業教育系列教材) 作者簡介
黃源,重慶航天職業技術學院副教授,參加工作以來,一直從事計算機課程的教學與科研,公開發表科研,教改論文多篇,并于2013年獲得副教授職稱。積極參加學校的精品課程建設與微課改革,出版專著3部,以前參編的北大出版社《網頁設計教程與實訓》曾獲教材一等獎。
- >
中國人在烏蘇里邊疆區:歷史與人類學概述
- >
企鵝口袋書系列·偉大的思想20:論自然選擇(英漢雙語)
- >
伯納黛特,你要去哪(2021新版)
- >
我與地壇
- >
經典常談
- >
李白與唐代文化
- >
自卑與超越
- >
我從未如此眷戀人間