大數據是這樣計算的Xlab實例入門 版權信息
- ISBN:9787121282317
- 條形碼:9787121282317 ; 978-7-121-28231-7
- 裝幀:暫無
- 冊數:暫無
- 重量:暫無
- 所屬分類:>>
大數據是這樣計算的Xlab實例入門 本書特色
隨著大數據分析方法的發展,分析工具的改進,大數據分析的門檻降低了。基于大數據算法平臺,數據分析師們已經不再被數據的“大”所困擾,可以輕松地探索大數據,挖掘大數據的價值。本書側重介紹大數據分析方法和算法的應用,適合對大數據分析感興趣的讀者閱讀。在內容的組織上,選取了10個不同領域的真實數據集,針對每個數據的特點,選擇適合的方法和算法,和讀者一起體驗數據探索、數據分析、建模預測的過程;通過實例計算的結果,讀者會更加了解各種方法和算法的長處和局限。本書的實例都運行在大數據算法平臺xlab上。
大數據是這樣計算的Xlab實例入門 內容簡介
隨著大數據分析方法的發展,分析工具的改進,大數據分析的門檻降低了。基于大數據算法平臺,數據分析師們已經不再被數據的“大”所困擾,可以輕松地探索大數據,挖掘大數據的價值。
本書側重介紹大數據分析方法和算法的應用,適合對大數據分析感興趣的讀者閱讀。在內容的組織上,選取了10個不同領域的真實數據集,針對每個數據的特點,選擇適合的方法和算法,和讀者一起體驗數據探索、數據分析、建模預測的過程;通過實例計算的結果,讀者會更加了解各種方法和算法的長處和局限。本書的實例都運行在大數據算法平臺XLab上。
大數據是這樣計算的Xlab實例入門 目錄
第1章 入門 11.1 打開大數據之門 11.2 接觸大數據 21.3 數據初探索 41.4 進一步分析 101.5 訓練和預測 17第2章 簡介 232.1 主界面介紹 232.1.1 工具欄 242.1.2 數據列表 262.1.3 窗口管理器 282.1.4 工作界面 282.2 數據查看、運行 292.2.1 文本顯示 312.2.2 復制部分數據 312.2.3 顯示/隱藏列 322.3 腳本編輯、運行 332.4 如何獲得幫助信息 372.4.1 查看幫助手冊 372.4.2 界面上的幫助信息 382.4.3 腳本函數的幫助信息 402.5 執行sql語句 44第3章 全球機場信息 463.1 數據可視化 473.2 統計分析 583.3 大中型機場的分析 623.4 海拔高度排行 643.5 數據的關聯關系 68第4章 股票價格 734.1 數據處理 744.2 數據探索 784.3 數據展開 814.3.1 組合使用基本函數進行變換 834.3.2 利用專門函數一步到位 844.4 各股趨勢比較 854.5 總體趨勢 87第5章 標準普爾500指數 915.1 數據類型轉換 925.2 各指標間的線性關系 935.3 按時間變化趨勢 965.4 數據對比 100第6章 鳶尾花數據集 1076.1 屬性間的關系 1086.2 聚類 1106.2.1 k-means聚類 1116.2.2 em聚類 1206.3 二分類數據子集 1246.3.1 使用訓練、預測窗體 1256.3.2 調用訓練、預測腳本 131第7章 movielens數據集 1367.1 數據變換 1377.2 統計 1387.3 排行榜 1457.4 分類排行榜 1477.5 影片關聯分析 1497.6 屬性擴展 157第8章 汽車評價數據集 1618.1 數據圖示化 1628.2 對比分析 1658.3 決策樹 169第9章 twitter數據 1749.1 用戶信息分析 1759.2 用戶粉絲數量的情況 1849.3 粉絲的情況 1929.4 “粉”與“被粉” 1979.5 信息傳播速度 2049.6 哪些用戶更重要 2089.6.1 粉絲*多的用戶 2099.6.2 用戶排名 211第10章 隨機數據 21510.1 數據生成 21510.2 計算π值 21710.3 中心極限定理 222第11章 新浪網頁數據 23011.1 分詞 23211.2 有區分度的單詞 23411.3 選擇特征 23511.3.1 卡方檢驗 23611.3.2 信息增益 23811.4 主題模型 24211.4.1 潛在語義分析 24211.4.2 概率潛在語義分析 25311.4.3 lda模型 27211.5 單詞映射為向量 289第12章 2014年阿里巴巴大數據競賽 29412.1 試題介紹 29412.2 數據 29612.3 思路 29812.3.1 用戶和品牌的各種特征 29812.3.2 二分類模型訓練 30012.3.3 比賽考核目標 30112.4 計算訓練數據集 30212.4.1 原始數據劃分 30312.4.2 計算特征 30412.4.3 數據預處理標識 30412.4.4 用戶-品牌聯合特征 30812.4.5 用戶特征 31312.4.6 品牌特征 31712.4.7 整合訓練數據的特征 32212.4.8 計算標簽 32312.5 二分類模型訓練 32412.5.1 正負樣本配比 32412.5.2 樸素貝葉斯算法 32512.5.3 邏輯回歸算法 32612.5.4 隨機森林算法 32712.6 提交預測結果 328
展開全部
大數據是這樣計算的Xlab實例入門 作者簡介
楊旭,吉林長春人,2004年獲南開大學數學博士學位;隨后在南開大學信息學院從事博士后研究工作;2006年加入微軟亞洲研究院,進行符號計算、大規模矩陣計算及機器學習算法研究;2010年加入阿里巴巴,從事大數據相關的統計和機器學習算法研發。著有《重構大數據統計》。