国产第1页_91在线亚洲_中文字幕成人_99久久久久久_五月宗合网_久久久久国产一区二区三区四区

讀書月攻略拿走直接抄!
歡迎光臨中圖網 請 | 注冊
> >>
基于PYSPARK的高級數據分析

包郵 基于PYSPARK的高級數據分析

出版社:中國電力出版社出版時間:2024-10-01
開本: 16開 頁數: 256
中 圖 價:¥45.5(5.8折) 定價  ¥78.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

基于PYSPARK的高級數據分析 版權信息

基于PYSPARK的高級數據分析 本書特色

編輯推薦
時至今日產生的數據量已經達到令人驚人的地步,而且還在不斷增長。Apache Spark已經成為分析大數據的實際工具,并且也是數據科學工具箱的關鍵部分。本書針對Spark*z新版本進行了更新,將Spark、統計方法和真實數據集結合在一起,教你如何運用 PySpark、Spark Python API和Spark編程中的其他*z佳實踐來解決分析問題。
數據科學家Akash Tandon、Sandy Ryza、Uri Laserson、Sean Owen和Josh Wills介紹了Spark生態系統,然后深入研究將常用技術(包括分類、聚類、協同過濾和異常檢測)應用于以下的領域:基因組學、安全工作和金融。此更新版本還涵蓋圖像處理和Spark NLP庫。
如果你對機器學習和統計學有基本的了解,并且能夠使用Python進行編程,那么本書將幫助你開始進行大規模的數據分析。

基于PYSPARK的高級數據分析 內容簡介

本書的主要內容有:熟悉Spark的編程模型和生態系統。學習數據科學的一般方法。檢查分析大型公共數據集執行步驟的完整性。發現哪些機器學習工具對特定問題有幫助。探索可適應多種用途的代碼。

基于PYSPARK的高級數據分析 目錄

目錄前言 1第1 章 大數據分析 711 使用大數據 812 Apache Spark 和PySpark10121 組件 10122 PySpark 12123 生態系統 1313 Spark 30 1414 PySpark 處理數據科學問題 1515 本章小結16第2 章 PySpark 數據分析簡介 1721 Spark 架構 1922 安裝PySpark 21目錄前言 1第1 章 大數據分析 711 使用大數據 812 Apache Spark 和PySpark10121 組件 10122 PySpark 12123 生態系統 1313 Spark 30 1414 PySpark 處理數據科學問題 1515 本章小結16第2 章 PySpark 數據分析簡介 1721 Spark 架構 1922 安裝PySpark 2123 設置我們的數據 2424 使用DataFrame API 分析數據 3125 DataFrames 的快速匯總統計 3526 DataFrame 的透視和重塑 3727 關聯DataFrame 并選擇特征4028 評分和模型評估 4229 本章小結44第3 章 音樂推薦和音頻編碼器的數據集 4731 設置數據4832 我們對推薦系統的要求 5133 數據準備5534 構建**個模型 5835 算法篩查推薦 6236 推薦質量評估 6437 計算AUC 6638 選擇超參數 6839 給出推薦71310 本章小結 72第4 章 使用決策樹和決策森林進行預測 7541 決策樹和決策森林 7642 準備數據7943 **顆決策樹 8444 決策樹超參數 9245 調試決策樹 9446 重溫分類特征 9847 隨機森林10248 進行預測10549 本章小結105第5 章 異常檢測與K-means 聚類算法 10751 K-means 聚類 10852 識別異常網絡流量 10953 初次嘗試聚類 11254 選擇K 值 11455 利用SparkR 實現可視化 11856 特征歸一化 12357 分類變量12458 使用熵(Entropy)標簽 12659 聚類實戰128510 本章小結 130第6 章 通過LDA、Spark NLP 了解維基百科 13361 隱含狄利克雷分布 13462 獲取數據13563 Spark NLP 13764 解析數據13965 使用Spark NLP 準備數據 14166 TF-IDF 14667 計算TF-IDF 14768 創建LDA 模型 14869 本章小結151第7 章 基于出租車行程數據的時空序列數據分析 15371 數據準備155711 將日期格式字符串轉換為時間戳 157712 處理無效記錄 15972 地理空間分析 161721 介紹GeoJSON 161722 GeoPandas 16373 PySpark 會話化 16674 本章小結170第8 章 金融風險評估 17181 金融術語17282 VaR 的計算方法 173821 方差與協方差 173822 歷史模擬法 173823 蒙特卡羅模擬 17483 我們的模型 17484 獲取數據17585 準備數據17786 決定因子權重 18087 抽樣 18488 試驗運行18789 可視化收益分布 191810 本章小結 192第9 章 分析基因組學數據和BDG 項目 19391 從建模中解耦存儲 19492 設置ADAM 19793 介紹如何使用ADAM 處理基因組數據 198931 使用ADAM CLI 進行文件格式轉換 199932 使用PySpark 和ADAM 采集基因組學數據 20094 預測轉錄因子結合位點 20695 本章小結212第10 章 基于深入學習和PySpark LSH 的圖像相似度檢測 215101 PyTorch 216102 準備數據 217103 圖像矢量表示的深度學習模型 2191031 圖像嵌入 2191032 將圖像嵌入導入 PySpark 222104 使用PySpark LSH 進行圖像相似搜索 223105 本章小結 228第11 章 使用MLflow 管理機器學習生命周期 229111 機器學習生命周期 229112 MLflow 231113 實驗跟蹤 232114 管理和服務ML 模型 236115 創建并使用MLflow 項目 239116 本章小結 243
展開全部

基于PYSPARK的高級數據分析 作者簡介

Akash Tandon是Looppanel的聯合創始人兼首席技術官。曾在Atlan擔任高級數據工程師。Sandy Ryza是Apache Spark的核心貢獻人,領導了Dagster項目的開發。Uri Laserson是Patch Biosciences 的創始人兼首席技術官。曾在Cloudera從事大數據和基因組學的研究。Sean Owen是Apache Spark的核心貢獻人和PMC(項目管理委員會)的成員,同時也是Databricks專注于機器學習和數據科學的首席解決方案架構師。Josh Wills是WeaveGrid的軟件工程師,也是Slack的前數據工程主管。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 国产成人午夜无码电影在线观看 | 午夜剧院官方 | 国产成人精品福利网站在线 | 强插女教师av在线 | 苍井空张开腿实干12次 | 99热这里只有精品首页 | 青青草久热精品视频在线观看 | 在线观看国产成人av天堂 | 亚洲国产精品第一区二区 | 久久是精品 | 中文无码精品a∨在线观看 中文无码精品一区二区三区 | 国产精品久久久久这里只有精品 | 亚洲精品无码久久 | 又色又污又爽又黄的网站 | 又色又污又爽又黄的网站 | 性一交一乱一色一视频 | 国产九九在线观看播放 | 特级毛片免费视频观看 | 成人免费体验区福利云点播 | 国产在线视频精品视频免费看 | 白天躁晚上躁麻豆视频 | 成人无遮挡18禁免费视频 | 9191精品国产观看 | 午夜美女影院 | 毛片网站观看 | 国内2020揄拍人妻在线视频 | 亚洲视频在线免费观看 | 色噜噜五月综合激情久久爱 | 青青青久 | 国产欧美日韩一区二区三区视频 | 91天堂视频 | 国产夜色视频 | 欧美成人高清在线视频大全 | 国产成人理在线观看视频 | 欧美精品a毛片免费观看 | 亚洲av中文无码乱人伦在线观看 | 无码无套少妇毛多18pxxxx | 双乳被老汉揉搓a毛片免费观看 | 国产美女久久精品香蕉69 | 天堂网欧美 | 亚洲国产精品无码观看久久 |