国产第1页_91在线亚洲_中文字幕成人_99久久久久久_五月宗合网_久久久久国产一区二区三区四区

讀書月攻略拿走直接抄!
歡迎光臨中圖網(wǎng) 請 | 注冊
> >>
大數(shù)據(jù)應用人才培養(yǎng)系列教材數(shù)據(jù)清洗/劉鵬

包郵 大數(shù)據(jù)應用人才培養(yǎng)系列教材數(shù)據(jù)清洗/劉鵬

出版社:清華大學出版社出版時間:2018-06-01
開本: 其他 頁數(shù): 238
本類榜單:教材銷量榜
中 圖 價:¥38.7(6.7折) 定價  ¥58.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>
買過本商品的人還買了

大數(shù)據(jù)應用人才培養(yǎng)系列教材數(shù)據(jù)清洗/劉鵬 版權(quán)信息

大數(shù)據(jù)應用人才培養(yǎng)系列教材數(shù)據(jù)清洗/劉鵬 本書特色

數(shù)據(jù)清洗是大數(shù)據(jù)領域不可缺少的環(huán)節(jié),用來發(fā)現(xiàn)并糾正數(shù)據(jù)中可能存在的錯誤,針對數(shù)據(jù)審查過程中發(fā)現(xiàn)的錯誤值、缺失值、異常值、可疑數(shù)據(jù),選用適當方法進行“清理”,使“臟”數(shù)據(jù)變?yōu)?ldquo;干凈”數(shù)據(jù)。 本書共分為8章:第1章主要介紹數(shù)據(jù)清洗的概念、任務和流程,數(shù)據(jù)標準化概念及數(shù)據(jù)倉庫技術(shù)等;第2章主要介紹Windows和類UNIX操作系統(tǒng)下的數(shù)據(jù)常規(guī)格式、數(shù)據(jù)編碼及數(shù)據(jù)類型轉(zhuǎn)換等;第3章介紹ETL概念、數(shù)據(jù)清洗的技術(shù)路線、ETL工具及ETL子系統(tǒng)等;第4章介紹Excel、Kettle、OpenRefine、DataWrangler和Hawk的安裝及使用等;第5章介紹Kettle下文本文件抽取、Web數(shù)據(jù)抽取、數(shù)據(jù)庫數(shù)據(jù)抽取及增量數(shù)據(jù)抽取等;第6章介紹數(shù)據(jù)清洗步驟、數(shù)據(jù)檢驗、數(shù)據(jù)錯誤處理、數(shù)據(jù)質(zhì)量評估及數(shù)據(jù)加載;第7章介紹網(wǎng)頁結(jié)構(gòu),利用網(wǎng)絡爬蟲技術(shù)進行數(shù)據(jù)采集,利用JavaScript技術(shù)進行行為日志數(shù)據(jù)采集等;第8章介紹RDBMS的數(shù)據(jù)清洗方法和數(shù)據(jù)脫敏處理技術(shù)等。 本書系統(tǒng)地講解了數(shù)據(jù)清洗理論和實際應用,適用于高職高專院校和應用型本科的大數(shù)據(jù)課程教學,也適用于希望了解數(shù)據(jù)清洗的廣大讀者。

大數(shù)據(jù)應用人才培養(yǎng)系列教材數(shù)據(jù)清洗/劉鵬 內(nèi)容簡介

數(shù)據(jù)清洗是大數(shù)據(jù)領域不可缺少的環(huán)節(jié),用來發(fā)現(xiàn)并糾正數(shù)據(jù)中可能存在的錯誤,針對數(shù)據(jù)審查過程中發(fā)現(xiàn)的錯誤值、缺失值、異常值、可疑數(shù)據(jù),選用適當方法進行“清理”,使“臟”數(shù)據(jù)變?yōu)椤案蓛簟睌?shù)據(jù)。本書共分為8章:靠前章主要介紹數(shù)據(jù)清洗的概念、任務和流程,數(shù)據(jù)標準化概念及數(shù)據(jù)倉庫技術(shù)等;第2章主要介紹Windows和類UNIX操作系統(tǒng)下的數(shù)據(jù)常規(guī)格式、數(shù)據(jù)編碼及數(shù)據(jù)類型轉(zhuǎn)換等;第3章介紹ETL概念、數(shù)據(jù)清洗的技術(shù)路線、ETL工具及ETL子系統(tǒng)等;第4章介紹Excel、Kettle、OpenRefine、DataWrangler和Hawk的安裝及使用等;第5章介紹Kettle下文本文件抽取、Web數(shù)據(jù)抽取、數(shù)據(jù)庫數(shù)據(jù)抽取及增量數(shù)據(jù)抽取等;第6章介紹數(shù)據(jù)清洗步驟、數(shù)據(jù)檢驗、數(shù)據(jù)錯誤處理、數(shù)據(jù)質(zhì)量評估及數(shù)據(jù)加載;第7章介紹網(wǎng)頁結(jié)構(gòu),利用網(wǎng)絡爬蟲技術(shù)進行數(shù)據(jù)采集,利用JavaScript技術(shù)進行行為日志數(shù)據(jù)采集等;第8章介紹RDBMS的數(shù)據(jù)清洗方法和數(shù)據(jù)脫敏處理技術(shù)等。本書系統(tǒng)地講解了數(shù)據(jù)清洗理論和實際應用,適用于高職高專院校和應用型本科的大數(shù)據(jù)課程教學,也適用于希望了解數(shù)據(jù)清洗的廣大讀者。

大數(shù)據(jù)應用人才培養(yǎng)系列教材數(shù)據(jù)清洗/劉鵬 目錄

第1章 數(shù)據(jù)清洗概述 1 1.1 數(shù)據(jù)清洗簡介 1 1.1.1 數(shù)據(jù)科學過程 1 1.1.2 數(shù)據(jù)清洗定義 2 1.1.3 數(shù)據(jù)清洗任務 3 1.1.4 數(shù)據(jù)清洗流程 4 1.1.5 數(shù)據(jù)清洗環(huán)境 5 1.1.6 數(shù)據(jù)清洗實例說明 6 1.2 數(shù)據(jù)標準化 7 1.2.1 數(shù)據(jù)標準化概念 7 1.2.2 數(shù)據(jù)標準化常用方法 8 1.3 數(shù)據(jù)倉庫簡介 9 1.3.1 數(shù)據(jù)倉庫定義 9 1.3.2 數(shù)據(jù)倉庫組成要素 10 1.3.3 數(shù)據(jù)倉庫分類 11 1.3.4 數(shù)據(jù)倉庫相關(guān)技術(shù) 12 1.3.5 常用工具簡介 13 1.4 習題 14 第2章 數(shù)據(jù)格式與編碼 16 2.1 文件文本格式 16 2.1.1 常見文本格式 17 2.1.2 xls及xlsx文件格式 18 2.1.3 JSON文本格式 19 2.1.4 HTML和XML文本格式 19 2.2 數(shù)據(jù)編碼 20 2.2.1 數(shù)據(jù)類型 21 2.2.2 數(shù)據(jù)類型間轉(zhuǎn)換 25 2.2.3 字符編碼 26 2.2.4 空值和亂碼 28 2.3 數(shù)據(jù)轉(zhuǎn)換 28 2.3.1 電子表格轉(zhuǎn)換 29 2.3.2 RDBMS數(shù)據(jù)轉(zhuǎn)換 30 2.4 習題 30 第3章 基本技術(shù)方法 31 3.1 ETL入門 31 3.1.1 ETL解決方案 31 3.1.2 ETL基本構(gòu)成 33 3.1.3 ETL技術(shù)選型 35 3.2 技術(shù)路線 35 3.2.1 文本清洗路線 35 3.2.2 RDBMS清洗路線 36 3.2.3 Web內(nèi)容清洗路線 36 3.3 ETL工具 37 3.3.1 ETL功能 37 3.3.2 開源ETL工具 38 3.4 ETL子系統(tǒng) 39 3.4.1 抽取 39 3.4.2 清洗和更正數(shù)據(jù) 39 3.4.3 數(shù)據(jù)發(fā)布 40 3.4.4 管理ETL 41 3.5 習題 41 第4章 數(shù)據(jù)清洗常用工具及基本操作 42 4.1 Microsoft Excel數(shù)據(jù)清洗基本操作 42 4.1.1 Excel數(shù)據(jù)清洗概述 42 4.1.2 Excel數(shù)據(jù)清洗 53 4.2 Kettle簡介及基本操作 57 4.2.1 Kettle軟件概述 57 4.2.2 Kettle基本操作 60 4.2.3 Kettle數(shù)據(jù)清洗實例操作 64 4.3 OpenRefine簡介及基本操作 68 4.3.1 OpenRefine軟件概述 69 4.3.2 OpenRefine基本操作 70 4.3.3 OpenRefine數(shù)據(jù)清洗實例操作 73 4.4 DataWrangler簡介及基本操作 80 4.4.1 DataWrangler軟件概述 80 4.4.2 DataWrangler基本操作 81 4.4.3 DataWrangler數(shù)據(jù)清洗實例操作 82 4.5 Hawk簡介及基本操作 86 4.5.1 Hawk軟件概述 86 4.5.2 Hawk基本操作 88 4.5.3 Hawk數(shù)據(jù)清洗實例操作 91 4.6 上機練習與實訓 98 4.7 習題 103 第5章 數(shù)據(jù)抽取 104 5.1 文本文件抽取 104 5.1.1 制表符文本抽取 107 5.1.2 CSV文件抽取 111 5.2 Web數(shù)據(jù)抽取 114 5.2.1 HTML文件抽取 114 5.2.2 JSON數(shù)據(jù)抽取 116 5.2.3 XML數(shù)據(jù)抽取 120 5.3 數(shù)據(jù)庫數(shù)據(jù)抽取 123 5.3.1 數(shù)據(jù)導入導出 123 5.3.2 ETL工具抽取 124 5.3.3 SQL到NoSQL抽取 127 5.4 上機練習與實訓 135 5.5 習題 143 第6章 數(shù)據(jù)轉(zhuǎn)換與加載 144 6.1 數(shù)據(jù)清洗轉(zhuǎn)換 144 6.1.1 數(shù)據(jù)清洗 145 6.1.2 數(shù)據(jù)檢驗 151 6.1.3 錯誤處理 156 6.2 數(shù)據(jù)質(zhì)量評估 161 6.2.1 數(shù)據(jù)評估指標 161 6.2.2 審計數(shù)據(jù) 163 6.3 數(shù)據(jù)加載 164 6.3.1 數(shù)據(jù)加載的概念 164 6.3.2 數(shù)據(jù)加載的方式 164 6.3.3 批量數(shù)據(jù)加載 165 6.3.4 數(shù)據(jù)加載異常處理 165 6.4 上機練習與實訓 166 6.5 習題 173 第7章 采集Web數(shù)據(jù)實例 175 7.1 網(wǎng)頁結(jié)構(gòu) 175 7.1.1 DOM模型 175 7.1.2 正則表達式 178 7.2 網(wǎng)絡爬蟲 181 7.2.1 網(wǎng)絡爬蟲簡介 181 7.2.2 網(wǎng)絡爬蟲異常處理 189 7.3 行為日志采集 190 7.3.1 用戶實時行為數(shù)據(jù)采集 190 7.3.2 用戶實時行為數(shù)據(jù)分析 193 7.4 上機練習與實訓 195 7.5 習題 198 第8章 清洗RDBMS數(shù)據(jù)實例 199 8.1 準備工作 199 8.1.1 準備待清洗的數(shù)據(jù)集 200 8.1.2 搭建操作環(huán)境 200 8.1.3 數(shù)據(jù)導入MySQL 201 8.2 數(shù)據(jù)庫數(shù)據(jù)清洗 205 8.2.1 缺失值清洗 205 8.2.2 格式內(nèi)容清洗 209 8.2.3 邏輯錯誤清洗 214 8.2.4 非需求數(shù)據(jù)清洗 217 8.3 數(shù)據(jù)脫敏處理 218 8.4 習題 222 參考文獻 223 附錄A 大數(shù)據(jù)和人工智能實驗環(huán)境 224 附錄B Hadoop環(huán)境要求 234 附錄C 名詞解釋 236
展開全部

大數(shù)據(jù)應用人才培養(yǎng)系列教材數(shù)據(jù)清洗/劉鵬 作者簡介

李法平- 副教授/系統(tǒng)分析師,碩士,重慶電子工程職業(yè)學院軟件學院移動應用開發(fā)教研室主任,主要從事高職軟件類專業(yè)教學研究、教育信息化系統(tǒng)和企業(yè)信息化系統(tǒng)等應用技術(shù)研究。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網(wǎng)
在線客服
主站蜘蛛池模板: 亚洲精品自拍愉拍第二页 | 国产成人综合久久精品 | 欧美bbw 极品另类 | 欧美亚洲日本视频 | 黄色毛片免费在线观看 | 久久精品国产精品青草不卡 | 91精品久久久久久久久网影视 | 久久草在线观看视频 | 国产精品人成福利视频 | 免费看性片 | 插我一区二区在线观看 | 成人勉费视频 | 少妇性俱乐部纵欲狂欢少妇 | 免费成人小视频 | 久久奈| 欧美成人精品三级在线观看 | 五月av综合av国产av | 中文国产成人精品久久96 | 99热这里只有精品国产免费 | 在线看免费毛片 | 两个人看的www中文在线观看 | 国产午夜伦鲁鲁 | 久草在线首页 | 免费在线精品视频 | 国产 日韩 一区 | 青青青国产在线观看免费网站 | 免费国产va在线观看 | 久久久久这里只有精品 | 国内揄拍国内精品少妇国语 | 亚洲天堂网在线视频 | 性色av一二三天美传媒 | 狠狠97人人婷婷五月 | 亚洲在线视频网站 | 久久久久国产亚洲日本 | 天堂网在线观看 | 两人性潮高免费视频看 | 97精品伊人久久久大香线蕉 | 亚洲码欧美码一区二区三区 | 男人天堂网站 | 丁香色欲久久久久久综合网 | 经典国产乱子伦精品视频 |