-
>
全國(guó)計(jì)算機(jī)等級(jí)考試最新真考題庫模擬考場(chǎng)及詳解·二級(jí)MSOffice高級(jí)應(yīng)用
-
>
決戰(zhàn)行測(cè)5000題(言語理解與表達(dá))
-
>
軟件性能測(cè)試.分析與調(diào)優(yōu)實(shí)踐之路
-
>
第一行代碼Android
-
>
JAVA持續(xù)交付
-
>
EXCEL最強(qiáng)教科書(完全版)(全彩印刷)
-
>
深度學(xué)習(xí)
套路!機(jī)器學(xué)習(xí)北美數(shù)據(jù)科學(xué)的私房課 版權(quán)信息
- ISBN:9787121326585
- 條形碼:9787121326585 ; 978-7-121-32658-5
- 裝幀:一般膠版紙
- 冊(cè)數(shù):暫無
- 重量:暫無
- 所屬分類:>
套路!機(jī)器學(xué)習(xí)北美數(shù)據(jù)科學(xué)的私房課 本書特色
數(shù)據(jù)科學(xué)家目前是北美zui熱門的職業(yè)之一,平均年薪突破10萬美元。但數(shù)據(jù)科學(xué)并不是一個(gè)低門檻的行業(yè),除了對(duì)數(shù)學(xué)、統(tǒng)計(jì)、計(jì)算機(jī)等相關(guān)領(lǐng)域的技術(shù)要求以外,還要相關(guān)應(yīng)用領(lǐng)域的知識(shí)。《套路!機(jī)器學(xué)習(xí)》的寫作對(duì)象是那些現(xiàn)在從事數(shù)據(jù)分析相關(guān)行業(yè),或者之后想從事數(shù)據(jù)分析行業(yè)的人,意在為實(shí)踐者提供數(shù)據(jù)科學(xué)家這門職業(yè)的相關(guān)信息。讀者可以從閱讀中了解到數(shù)據(jù)科學(xué)能解決的問題,數(shù)據(jù)科學(xué)家需要的技能,及背后的“分析哲學(xué)”。對(duì)于新手而言,一開始就直奔艱深的理論,很容易因?yàn)槔щy而失去興趣zui終放棄。因此《套路!機(jī)器學(xué)習(xí)》倡導(dǎo)的是一種循序漸進(jìn)的啟發(fā)教學(xué)路徑,著重在于數(shù)據(jù)科學(xué)的實(shí)際應(yīng)用,讓讀者能夠重復(fù)書中的結(jié)果,學(xué)習(xí)數(shù)據(jù)分析技能zui好的方式是實(shí)踐!為了平衡理論和應(yīng)用,書中包括了一些選學(xué)小節(jié),用來介紹更多的模型數(shù)理背景或給出必要的參考資料來源。抽絲剝繭介紹技術(shù)內(nèi)核,幫助大家知其然,同時(shí)知其所以然。希望筆者在北美從事數(shù)據(jù)科學(xué)工作多年踏遍大大小小不計(jì)其數(shù)的坑換來的經(jīng)驗(yàn),能夠幫助讀者更加順利地成為數(shù)據(jù)科學(xué)家!
套路!機(jī)器學(xué)習(xí)北美數(shù)據(jù)科學(xué)的私房課 內(nèi)容簡(jiǎn)介
亞馬遜資深數(shù)據(jù)科學(xué)家李明博士、統(tǒng)計(jì)之都創(chuàng)始人謝益輝博士搶先品讀
當(dāng)前關(guān)于大數(shù)據(jù)、人工智能的炒作著實(shí)令人眼花繚亂,如大數(shù)據(jù)平臺(tái)(如Hadoop、Spark),以及一些黑箱模型,如神經(jīng)網(wǎng)絡(luò),深度學(xué)習(xí)(實(shí)際上就是多層神經(jīng)網(wǎng)絡(luò))。各路媒體和“磚家”深諳吃瓜群眾不明覺厲的心態(tài),所以就像個(gè)“妓院頭牌“似的越發(fā)擺譜。作者并沒有打算寫一本數(shù)據(jù)科學(xué)的圣經(jīng),告訴你所有關(guān)于數(shù)據(jù)科學(xué)的一切;只想盡可能地給大家還原一個(gè)真實(shí)的數(shù)據(jù)科學(xué)和數(shù)據(jù)科學(xué)家。希望能為后來者提供一些信息,使得讀者們能夠少走彎路。
套路!機(jī)器學(xué)習(xí)北美數(shù)據(jù)科學(xué)的私房課 目錄
1.1 什么是數(shù)據(jù)科學(xué) 3
1.2 什么是數(shù)據(jù)科學(xué)家 5
1.2.1 數(shù)據(jù)科學(xué)家需要的技能 6
1.2.2 數(shù)據(jù)科學(xué)算法總結(jié) 10
1.3 數(shù)據(jù)科學(xué)可以解決什么問題 20
1.3.1 前提要求 20
1.3.2 問題種類 22
1.4 小結(jié) 25
第2章 數(shù)據(jù)集 26
2.1 服裝消費(fèi)者數(shù)據(jù) 26
2.2 航空公司滿意度調(diào)查 33
2.3 生豬疫情風(fēng)險(xiǎn)預(yù)測(cè)數(shù)據(jù) 37
第3章 數(shù)據(jù)分析流程 41
3.1 從問題到數(shù)據(jù) 42
3.2 從數(shù)據(jù)到信息 44
3.3 從信息到行動(dòng) 46
第4章 數(shù)據(jù)預(yù)處理 47
4.1 介紹 47
4.2 數(shù)據(jù)清理 50
4.3 缺失值填補(bǔ) 52
4.3.1 中位數(shù)或眾數(shù)填補(bǔ) 53
4.3.2 K-近鄰填補(bǔ) 54
4.3.3 裝袋樹填補(bǔ) 56
4.4 中心化和標(biāo)量化 56
4.5 有偏分布 59
4.6 處理離群點(diǎn) 63
4.7 共線性 66
4.8 稀疏變量 70
4.9 編碼名義變量 71
4.10 小結(jié) 73
第5章 數(shù)據(jù)操作 75
5.1 數(shù)據(jù)讀寫 76
5.1.1 取代傳統(tǒng)數(shù)據(jù)框的tibble對(duì)象 76
5.1.2 高效數(shù)據(jù)讀寫:readr包 80
5.1.3 數(shù)據(jù)表對(duì)象讀取 83
5.2 數(shù)據(jù)整合 91
5.2.1 base包:apply() 91
5.2.2 plyr包:ddply()函數(shù) 93
5.2.3 dplyr包 96
5.3 數(shù)據(jù)整形 102
5.3.1 reshape2包 102
5.3.2 tidyr包 105
5.4 小結(jié) 107
第6章 基礎(chǔ)建模技術(shù) 109
6.1 有監(jiān)督和無監(jiān)督 109
6.2 誤差及其來源 111
6.2.1 系統(tǒng)誤差和隨ji誤差 111
6.2.2 因變量誤差 117
6.2.3 自變量誤差 121
6.3 數(shù)據(jù)劃分和再抽樣 122
6.3.1 劃分訓(xùn)練集和測(cè)試集 123
6.3.2 重抽樣 131
6.4 小結(jié) 135
第7章 模型評(píng)估度量 136
7.1 回歸模型評(píng)估度量 136
7.2 分類模型評(píng)估度量 139
7.2.1 Kappa統(tǒng)計(jì)量 141
7.2.2 ROC曲線 143
7.2.3 提升圖 145
7.3 小結(jié) 146
第8章 特征工程 148
8.1 特征構(gòu)建 149
8.2 特征提取 152
8.2.1 初步探索特征 153
8.2.2 主成分分析 158
8.2.3 探索性因子分析 163
8.2.4 高維標(biāo)度化 167
8.2.5 知識(shí)擴(kuò)展:3種降維特征提取方法的理論 171
8.3 特征選擇 177
8.3.1 過濾法 178
8.3.2 繞封法 188
8.4 小結(jié) 195
第9章 線性回歸及其衍生 196
9.1 普通線性回歸 197
9.1.1 zui小二乘線性模型 197
9.1.2 回歸診斷 201
9.1.3 離群點(diǎn)、高杠桿點(diǎn)和強(qiáng)影響點(diǎn) 204
9.2 收縮方法 205
9.2.1 嶺回歸 205
9.2.2 Lasso 209
9.2.3 彈性網(wǎng)絡(luò) 212
9.3 知識(shí)擴(kuò)展:LASSO的變量選擇功能 213
9.4 主成分和偏*小二乘回歸 215
9.5 小結(jié) 221
第10章 廣義線性模型壓縮方法 222
10.1 初識(shí)GLMNET 223
10.2 收縮線性回歸 227
10.3 邏輯回歸 235
10.3.1 普通邏輯回歸 235
10.3.2 收縮邏輯回歸 236
10.3.3 知識(shí)擴(kuò)展:群組lasso邏輯回歸 239
10.4 收縮多項(xiàng)回歸 243
10.5 泊松收縮回歸 246
10.6 小結(jié) 249
第11章 樹模型 250
11.1 分裂準(zhǔn)則 252
11.2 樹的修剪 256
11.3 回歸樹和決策樹 260
11.4 裝袋樹 268
11.5 隨ji森林 273
11.6 助推法 277
11.7 知識(shí)擴(kuò)展:助推法的可加模型框架 283
11.8 知識(shí)擴(kuò)展:助推樹的數(shù)學(xué)框架 286
11.8.1 數(shù)學(xué)表達(dá) 286
11.8.2 梯度助推數(shù)值優(yōu)化 289
11.9 小結(jié) 290
第12章 神經(jīng)網(wǎng)絡(luò) 292
12.1 投影尋蹤回歸(PROJECTION PURSUIT REGRESSION) 293
12.2 神經(jīng)網(wǎng)絡(luò)(NEURAL NETWORKS) 296
12.3 神經(jīng)網(wǎng)絡(luò)擬合 299
12.4 訓(xùn)練神經(jīng)網(wǎng)絡(luò) 300
12.5 用CARET包訓(xùn)練神經(jīng)網(wǎng)絡(luò) 302
12.6 小結(jié) 311
參考文獻(xiàn) 312
套路!機(jī)器學(xué)習(xí)北美數(shù)據(jù)科學(xué)的私房課 相關(guān)資料
推薦序一 伴隨著計(jì)算機(jī)硬件、數(shù)據(jù)獲取和存儲(chǔ)技術(shù)、分布式算法的飛速發(fā)展,以及海量數(shù)據(jù)的積累,數(shù)據(jù)科學(xué)成為近年來飛速發(fā)展的學(xué)科。但確切地說,數(shù)據(jù)科學(xué)還不是一門定義完善的學(xué)科。直到*近兩年,大學(xué)里才慢慢開始建立數(shù)據(jù)科學(xué)相關(guān)的項(xiàng)目和學(xué)位。林薈博士的著作及時(shí)地填補(bǔ)了“如何成為成功的數(shù)據(jù)科學(xué)家”領(lǐng)域的空白。由于數(shù)據(jù)科學(xué)家的就業(yè)市場(chǎng)非常火熱,很多領(lǐng)域的人才都想通過提升自身技術(shù)水平和經(jīng)驗(yàn)成為真正的數(shù)據(jù)科學(xué)家。但正如林博士在書中指出的“數(shù)據(jù)科學(xué)家=數(shù)據(jù) 科學(xué) 藝術(shù)家”一樣,想成為成功的數(shù)據(jù)科學(xué)家,各個(gè)領(lǐng)域的人才需要通過大量的學(xué)習(xí)和實(shí)踐來彌補(bǔ)自身的欠缺。比如傳統(tǒng)的統(tǒng)計(jì)學(xué)家和計(jì)量經(jīng)濟(jì)師需要熟悉編程、數(shù)據(jù)庫操作和大數(shù)據(jù)分布式計(jì)算架構(gòu)。對(duì)于剛剛畢業(yè)的理工科碩士和博士,積累利用真實(shí)數(shù)據(jù)解決實(shí)際問題的經(jīng)驗(yàn),提高書面和口頭表達(dá)能力,提升團(tuán)隊(duì)協(xié)作能力和自身的影響力是至關(guān)重要的。 林博士的著作首先系統(tǒng)地闡述了什么是數(shù)據(jù)科學(xué)以及成為成功數(shù)據(jù)科學(xué)家的必要條件。然后通過具體的數(shù)據(jù)和例子來引導(dǎo)讀者一步步地理解和學(xué)習(xí)如何獲取這些必要的條件成為真正的數(shù)據(jù)科學(xué)家。本書中各個(gè)章節(jié)的數(shù)據(jù)和具體操作都由開源系統(tǒng)的R語言來實(shí)現(xiàn)。讀者可以下載所有的數(shù)據(jù)和代碼,通過自己運(yùn)行這些代碼來加深對(duì)每個(gè)章節(jié)知識(shí)的理解,并且可以很快靈活地學(xué)以致用來解決學(xué)習(xí)和工作中遇到的數(shù)據(jù)科學(xué)相關(guān)的項(xiàng)目。 對(duì)數(shù)據(jù)科學(xué)家而言,很大一部分精力是要花在數(shù)據(jù)的理解、整合和預(yù)處理上面。林博士通過自己在數(shù)據(jù)科學(xué)領(lǐng)域多年的經(jīng)驗(yàn)來仔細(xì)講解如何理解和預(yù)處理數(shù)據(jù),這是本書的亮點(diǎn)之一。沒有很好地理解數(shù)據(jù),沒有透徹地了解具體要解決的問題,就不可能找到好的解決方法。接著林博士用語言生動(dòng)詼諧的例子介紹了在數(shù)據(jù)科學(xué)中常見的模型和方法。讀者可以通過相關(guān)例子和代碼來高效理解這些模型和方法,并可以快速地學(xué)以致用。雖然幾乎所有的算法都有相應(yīng)的程序包來實(shí)現(xiàn),但作為成功的數(shù)據(jù)科學(xué)家,理解模型的理論背景和基礎(chǔ)是必需的。因?yàn)橹挥欣斫饬诉@些程序包的理論基礎(chǔ),才能有效地對(duì)不同數(shù)據(jù)不同問題來選擇解決的方法并且設(shè)置合理的參數(shù)。本書對(duì)常用模型和方法進(jìn)行了介紹和引申,可以幫助讀者了解各個(gè)模型和方法背后的理論。簡(jiǎn)言之,本書系統(tǒng)地闡述了如何成為成功的數(shù)據(jù)科學(xué)家,讀者可以通過本書的數(shù)據(jù)和代碼,高效學(xué)習(xí)并能很快應(yīng)用到實(shí)際項(xiàng)目中去。 伴隨著大數(shù)據(jù)應(yīng)用從互聯(lián)網(wǎng)科技公司普及到傳統(tǒng)商業(yè)領(lǐng)域諸如零售、制造、交通、電力和能源、航空航天、金融、醫(yī)療保健,以及大數(shù)據(jù)在各級(jí)政府部門政策制定和實(shí)施中的應(yīng)用,數(shù)據(jù)科學(xué)家的需求還會(huì)逐年增高。尤其是大數(shù)據(jù)在新興領(lǐng)域如工業(yè)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、智能家居和傳感器網(wǎng)絡(luò)的重要應(yīng)用,很多相應(yīng)的數(shù)據(jù)科學(xué)家的職位也會(huì)有新的需求。比如在制造業(yè)工業(yè)物聯(lián)網(wǎng)領(lǐng)域的數(shù)據(jù)科學(xué)家崗位,除了上述提到的知識(shí)和經(jīng)驗(yàn),通常還會(huì)要求對(duì)制造業(yè)背后的物理和工程原理有所了解。具備了相應(yīng)工業(yè)的基礎(chǔ)知識(shí)和原理,數(shù)據(jù)科學(xué)家才能更好地理解數(shù)據(jù)并建立有效的模型和應(yīng)用。這也對(duì)各理工科背景的人才敞開了數(shù)據(jù)科學(xué)的大門。同時(shí)通過大量用戶數(shù)據(jù)的積累,數(shù)據(jù)科學(xué)家也對(duì)人文學(xué)科的人才敞開了大門。數(shù)據(jù)科學(xué)是一個(gè)飛速發(fā)展的學(xué)科,它通過數(shù)據(jù)和模型來影響各個(gè)學(xué)科和領(lǐng)域從而產(chǎn)生價(jià)值。數(shù)據(jù)科學(xué)家使得采集的數(shù)據(jù)有了真正的用武之地。對(duì)數(shù)據(jù)科學(xué)感興趣的人才們,請(qǐng)從本書開始,不斷提升自己的技術(shù)和經(jīng)驗(yàn),真正成為成功的數(shù)據(jù)科學(xué)家,為各行各業(yè)帶來顛覆性的創(chuàng)新吧! 李明寫于美國(guó)西雅圖,默瑟島 2017年6月中心序言作者簡(jiǎn)介:李明博士,畢業(yè)于美國(guó)愛荷華州立大學(xué)(Iowa State University )擁有物理和統(tǒng)計(jì)學(xué)背景。曾任通用電氣全球研發(fā)中心(GE Global Research Center)統(tǒng)計(jì)方向負(fù)責(zé)人(Statistical Leader),沃爾瑪技術(shù)部(WalmartTechnology)數(shù)據(jù)科學(xué)家(Data Scientist)。現(xiàn)任美國(guó)亞馬遜(Amazon)資深數(shù)據(jù)科學(xué)家(Senior Data Scientist)。李博士還擔(dān)任美國(guó)統(tǒng)計(jì)學(xué)會(huì)(American Statistical Association)質(zhì)量和生產(chǎn)力分會(huì)(Quality and Productivity Section)2017年度主席,以及統(tǒng)計(jì)在物理和工程應(yīng)用年度獎(jiǎng)評(píng)選委員會(huì)主席(SPES Award,one of American Statistical Association annual awards)。李博士的職業(yè)生涯中曾涉及金融、零售、制造、電力和能源、交通、醫(yī)療保健和航空航天等多個(gè)產(chǎn)業(yè)及相關(guān)跨產(chǎn)業(yè)領(lǐng)域。 推薦序二 又來一個(gè)找我寫序的……感覺自己都快成了寫序?qū)I(yè)戶,慚愧慚愧。以前叫我寫序的作者我一般都不熟,但這次這位我還算熟,所以終于可以說點(diǎn)電視上不讓播的內(nèi)容了。八年前林博士和我一同進(jìn)入愛荷華州立大學(xué)(俗稱Ames村辦大學(xué))統(tǒng)計(jì)系讀博,當(dāng)時(shí)我們的背景完全相反:我在測(cè)度論課上奄奄一息,在R里如魚得水,林薈在R入門課上死去活來,在理論課上羽化登仙。毫不臉紅地吹個(gè)牛:要不是我當(dāng)年的提攜,她早就能寫出這本書了。 玩笑歸玩笑。總的來說,看到這本書時(shí)我還是吃了一驚。看來我讀博的時(shí)候一定是遇到了一個(gè)“假林”薈。盡管上學(xué)的時(shí)候她在村辦大學(xué)的牲口學(xué)院(好吧,獸醫(yī)學(xué)院)有一些科研經(jīng)歷,但我記得也就是畫畫ROC曲線、跑跑邏輯回歸而已。士別三年,竟然已經(jīng)成了一名R 語言老司機(jī),而且還寫出一本主題這么宏大的書。書里舉的例子都是種子、生豬、農(nóng)業(yè)論壇,鬼知道她這幾年都經(jīng)歷了些什么。以前她抗拒寫代碼,主要原因是對(duì)著電腦時(shí)間長(zhǎng)了怕臉上長(zhǎng)痘,看來后來還是決定為(數(shù)據(jù))科學(xué)獻(xiàn)身了。我們假裝感動(dòng)三秒鐘。 書的內(nèi)容我大致看了一遍,因?yàn)槎际鞘烊耍以u(píng)價(jià)起來也就不客套了;按書的內(nèi)容,分兩方面說:R語言和數(shù)據(jù)科學(xué)。 一般來說,我不在乎別人的R代碼寫得好不好,因?yàn)榉凑龑懙迷俸靡矝]我寫得好(明年請(qǐng)?jiān)谖业膲烆^多燒兩張紙)。我對(duì)計(jì)算機(jī)相關(guān)書籍的*標(biāo)準(zhǔn)是不要把“閾值”寫成“閥值”,我仔細(xì)看過了,本書作者寫的是對(duì)的。看R相關(guān)的書籍時(shí),我也有個(gè)怪癖,就是找有沒有 if (x == TRUE) 或者 y[which(y > 3)]這樣的語句,其實(shí)語句都沒錯(cuò),只是看看作者的強(qiáng)迫癌是不是到了晚期(if (x)和y[y > 3]就已足夠)。本書作者似乎沒有患強(qiáng)迫癌。不過這也無妨,很多時(shí)候我覺得對(duì)代碼吹毛求疵反而影響效率,而且不太老的司機(jī)分享的經(jīng)驗(yàn)對(duì)新司機(jī)可能更有用。在我眼中,這本書在 R 方面有兩個(gè)亮點(diǎn):一是里面介紹了很多 R 的附加包,例如 caret,讀者拿起來應(yīng)該能很快上手;二是幾乎以假亂真地模擬數(shù)據(jù),這一點(diǎn)可能會(huì)為人詬病(不是真實(shí)數(shù)據(jù)),但我覺得模擬數(shù)據(jù)有其獨(dú)特的價(jià)值,就是你掌控著整個(gè)小宇宙,數(shù)據(jù)從生成到建模到解釋,一路的過程你都可以看清楚,而且可以變著法子變換新數(shù)據(jù)玩,學(xué)習(xí)模型使用方法。 數(shù)據(jù)科學(xué)我就不敢妄言了,畢竟我畢業(yè)之后已經(jīng)轉(zhuǎn)向純碼農(nóng),很少做有關(guān)統(tǒng)計(jì)或數(shù)據(jù)的一線工作。就我的快速粗讀來看,我感覺話題的覆蓋范圍很廣,但深度也比較適宜。廣度和深度通常只能二選一,也沒有優(yōu)劣之分。我讀書少,也限于篇幅,就隨意翻兩頁點(diǎn)評(píng)兩個(gè)例子,從我自己的視角管窺一下本書的價(jià)值。比如多年前我就堅(jiān)信,講主成分分析的人如果不馬上講偏*小二乘就是耍流氓,尤其是主成分回歸,是流氓中的流氓,而本書作者很明確地指出了主成分回歸的弊病。再比如Bootstrap方法,作者講,“假如你只有一個(gè)樣本,難道你不停地有放回抽樣就能得到大樣本了?”這是很漂亮的一拳。很多方法因?yàn)閷?shí)施簡(jiǎn)單,所以很容易讓人忘了它們的先決條件。我非常反對(duì)迷信模型或方法甚至軟件,世上沒那么多萬金油。基于同樣的原因,我很欣慰看到本書不是清一色 ggplot2圖形(雖然有些圖可能長(zhǎng)得略丑,但想得美就好了)。 仔細(xì)看完本書的話應(yīng)該能看出作者是蘋果粉(某一頁上畫圖時(shí)字體用的是Songti SC)以及“段子狗”。都讀完了博士,選電腦還這么看臉,還整天為各種段子操碎了心,所以這位數(shù)據(jù)科學(xué)家也是蠻拼的。 謝益輝寫于奧馬哈
套路!機(jī)器學(xué)習(xí)北美數(shù)據(jù)科學(xué)的私房課 作者簡(jiǎn)介
2013年至今任美國(guó)杜邦公司商業(yè)數(shù)據(jù)科學(xué)家。北京師范大學(xué)數(shù)學(xué)科學(xué)學(xué)院本科,愛荷華州立大學(xué)統(tǒng)計(jì)學(xué)院碩士和博士。曾任愛荷華州立大學(xué)獸醫(yī)學(xué)院統(tǒng)計(jì)咨詢師(2009-2013)及商學(xué)院分析咨詢師(2012-2013)。當(dāng)選2017-2018美國(guó)統(tǒng)計(jì)協(xié)會(huì)市場(chǎng)營(yíng)銷統(tǒng)計(jì)項(xiàng)目主席。翻譯出版了《應(yīng)用預(yù)測(cè)建模》和《R語言市場(chǎng)研究分析》。
- >
隨園食單
- >
二體千字文
- >
小考拉的故事-套裝共3冊(cè)
- >
我與地壇
- >
大紅狗在馬戲團(tuán)-大紅狗克里弗-助人
- >
莉莉和章魚
- >
龍榆生:詞曲概論/大家小書
- >
詩經(jīng)-先民的歌唱