基于PYSPARK的高級數據分析 版權信息
- ISBN:9787519891862
- 條形碼:9787519891862 ; 978-7-5198-9186-2
- 裝幀:平裝-膠訂
- 冊數:暫無
- 重量:暫無
- 所屬分類:>>
基于PYSPARK的高級數據分析 本書特色
編輯推薦
時至今日產生的數據量已經達到令人驚人的地步,而且還在不斷增長。Apache Spark已經成為分析大數據的實際工具,并且也是數據科學工具箱的關鍵部分。本書針對Spark*z新版本進行了更新,將Spark、統計方法和真實數據集結合在一起,教你如何運用 PySpark、Spark Python API和Spark編程中的其他*z佳實踐來解決分析問題。
數據科學家Akash Tandon、Sandy Ryza、Uri Laserson、Sean Owen和Josh Wills介紹了Spark生態系統,然后深入研究將常用技術(包括分類、聚類、協同過濾和異常檢測)應用于以下的領域:基因組學、安全工作和金融。此更新版本還涵蓋圖像處理和Spark NLP庫。
如果你對機器學習和統計學有基本的了解,并且能夠使用Python進行編程,那么本書將幫助你開始進行大規模的數據分析。
基于PYSPARK的高級數據分析 內容簡介
本書的主要內容有:熟悉Spark的編程模型和生態系統。學習數據科學的一般方法。檢查分析大型公共數據集執行步驟的完整性。發現哪些機器學習工具對特定問題有幫助。探索可適應多種用途的代碼。
基于PYSPARK的高級數據分析 目錄
目錄前言 1第1 章 大數據分析 711 使用大數據 812 Apache Spark 和PySpark10121 組件 10122 PySpark 12123 生態系統 1313 Spark 30 1414 PySpark 處理數據科學問題 1515 本章小結16第2 章 PySpark 數據分析簡介 1721 Spark 架構 1922 安裝PySpark 21目錄前言 1第1 章 大數據分析 711 使用大數據 812 Apache Spark 和PySpark10121 組件 10122 PySpark 12123 生態系統 1313 Spark 30 1414 PySpark 處理數據科學問題 1515 本章小結16第2 章 PySpark 數據分析簡介 1721 Spark 架構 1922 安裝PySpark 2123 設置我們的數據 2424 使用DataFrame API 分析數據 3125 DataFrames 的快速匯總統計 3526 DataFrame 的透視和重塑 3727 關聯DataFrame 并選擇特征4028 評分和模型評估 4229 本章小結44第3 章 音樂推薦和音頻編碼器的數據集 4731 設置數據4832 我們對推薦系統的要求 5133 數據準備5534 構建**個模型 5835 算法篩查推薦 6236 推薦質量評估 6437 計算AUC 6638 選擇超參數 6839 給出推薦71310 本章小結 72第4 章 使用決策樹和決策森林進行預測 7541 決策樹和決策森林 7642 準備數據7943 **顆決策樹 8444 決策樹超參數 9245 調試決策樹 9446 重溫分類特征 9847 隨機森林10248 進行預測10549 本章小結105第5 章 異常檢測與K-means 聚類算法 10751 K-means 聚類 10852 識別異常網絡流量 10953 初次嘗試聚類 11254 選擇K 值 11455 利用SparkR 實現可視化 11856 特征歸一化 12357 分類變量12458 使用熵(Entropy)標簽 12659 聚類實戰128510 本章小結 130第6 章 通過LDA、Spark NLP 了解維基百科 13361 隱含狄利克雷分布 13462 獲取數據13563 Spark NLP 13764 解析數據13965 使用Spark NLP 準備數據 14166 TF-IDF 14667 計算TF-IDF 14768 創建LDA 模型 14869 本章小結151第7 章 基于出租車行程數據的時空序列數據分析 15371 數據準備155711 將日期格式字符串轉換為時間戳 157712 處理無效記錄 15972 地理空間分析 161721 介紹GeoJSON 161722 GeoPandas 16373 PySpark 會話化 16674 本章小結170第8 章 金融風險評估 17181 金融術語17282 VaR 的計算方法 173821 方差與協方差 173822 歷史模擬法 173823 蒙特卡羅模擬 17483 我們的模型 17484 獲取數據17585 準備數據17786 決定因子權重 18087 抽樣 18488 試驗運行18789 可視化收益分布 191810 本章小結 192第9 章 分析基因組學數據和BDG 項目 19391 從建模中解耦存儲 19492 設置ADAM 19793 介紹如何使用ADAM 處理基因組數據 198931 使用ADAM CLI 進行文件格式轉換 199932 使用PySpark 和ADAM 采集基因組學數據 20094 預測轉錄因子結合位點 20695 本章小結212第10 章 基于深入學習和PySpark LSH 的圖像相似度檢測 215101 PyTorch 216102 準備數據 217103 圖像矢量表示的深度學習模型 2191031 圖像嵌入 2191032 將圖像嵌入導入 PySpark 222104 使用PySpark LSH 進行圖像相似搜索 223105 本章小結 228第11 章 使用MLflow 管理機器學習生命周期 229111 機器學習生命周期 229112 MLflow 231113 實驗跟蹤 232114 管理和服務ML 模型 236115 創建并使用MLflow 項目 239116 本章小結 243
展開全部
基于PYSPARK的高級數據分析 作者簡介
Akash Tandon是Looppanel的聯合創始人兼首席技術官。曾在Atlan擔任高級數據工程師。Sandy Ryza是Apache Spark的核心貢獻人,領導了Dagster項目的開發。Uri Laserson是Patch Biosciences 的創始人兼首席技術官。曾在Cloudera從事大數據和基因組學的研究。Sean Owen是Apache Spark的核心貢獻人和PMC(項目管理委員會)的成員,同時也是Databricks專注于機器學習和數據科學的首席解決方案架構師。Josh Wills是WeaveGrid的軟件工程師,也是Slack的前數據工程主管。