-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應(yīng)用
-
>
決戰(zhàn)行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調(diào)優(yōu)實踐之路
-
>
第一行代碼Android
-
>
JAVA持續(xù)交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學(xué)習(xí)
大模型時代的基礎(chǔ)架構(gòu):大模型算力中心建設(shè)指南 版權(quán)信息
- ISBN:9787121481239
- 條形碼:9787121481239 ; 978-7-121-48123-9
- 裝幀:平塑勒
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>
大模型時代的基礎(chǔ)架構(gòu):大模型算力中心建設(shè)指南 內(nèi)容簡介
大模型是近年來引人注目的熱點之一。大模型蓬勃發(fā)展的基礎(chǔ),是針對其需求設(shè)計的算力及基礎(chǔ)架構(gòu)。本書針對如何為大模型構(gòu)建基礎(chǔ)架構(gòu)進行深入講解,并基于TOGAF方法論,剖析業(yè)界知名案例的設(shè)計方案。 全書總計13章。第1章講解AI與大模型時代對基礎(chǔ)架構(gòu)的需求;第2章講解軟件程序與專用硬件的結(jié)合,涉及GPU并行運算庫、機器學(xué)習(xí)程序的開發(fā)框架和分布式AI訓(xùn)練;第3章剖析GPU的硬件架構(gòu),涉及GPU的總體設(shè)計、Nvidia GH100芯片架構(gòu)和擁有其他Hopper架構(gòu)的GPU;第4章講解GPU服務(wù)器的設(shè)計與實現(xiàn);第5章講解機器學(xué)習(xí)所依托的I/O框架體系;第6章講解GPU集群的網(wǎng)絡(luò)設(shè)計與實現(xiàn);第7章講解GPU板卡算力調(diào)度技術(shù);第8章講解GPU虛擬化調(diào)度方案;第9章講解GPU集群的網(wǎng)絡(luò)虛擬化設(shè)計與實現(xiàn);第10章講解GPU集群的存儲設(shè)計與實現(xiàn);第11章講解如何基于云原生技術(shù)為機器學(xué)習(xí)應(yīng)用設(shè)計與實現(xiàn)更好的開發(fā)和運行平臺;第12章講解基于云平臺的GPU集群的管理與運營,涉及云運維平臺、云運營平臺和云審計平臺;第13章基于一個服務(wù)機器學(xué)習(xí)的GPU計算平臺落地案例,展示如何針對機器學(xué)習(xí)應(yīng)用進行需求分析、設(shè)計與實現(xiàn)。 無論是高等院校計算機與人工智能等相關(guān)專業(yè)的本科生或研究生,還是對并行計算技術(shù)、云計算技術(shù)、高性能存儲及高性能網(wǎng)絡(luò)技術(shù)感興趣的研究人員或工程技術(shù)人員,都可以參考和閱讀本書。
大模型時代的基礎(chǔ)架構(gòu):大模型算力中心建設(shè)指南 目錄
1.1 我們在談?wù)揂I時,到底在談?wù)撌裁?
1.2 機器學(xué)習(xí)算法初窺
1.3 一元線性回歸算法剖析
1.4 機器學(xué)習(xí)算法對計算機硬件的特殊需求
1.4.1 機器學(xué)習(xí)算法的核心運算特征
1.4.2 使用CPU實現(xiàn)機器學(xué)習(xí)算法和并行加速
1.4.3 機器學(xué)習(xí)算法的主力引擎——GPU
1.4.4 機器學(xué)習(xí)算法的新引擎——TPU和NPU
1.5 本章小結(jié)
第2章 軟件程序與專用硬件的結(jié)合
2.1 GPU并行運算庫
2.2 機器學(xué)習(xí)程序的開發(fā)框架
2.3 分布式AI訓(xùn)練
2.4 本章小結(jié)
第3章 GPU硬件架構(gòu)剖析
3.1 GPU的總體設(shè)計
3.2 Nvidia GH100芯片架構(gòu)剖析
3.3 其他Hopper架構(gòu)的GPU
3.4 本章小結(jié)
第4章 GPU服務(wù)器的設(shè)計與實現(xiàn)
4.1 初識Nvidia DGX
4.2 Nvidia DGX A100的總體設(shè)計
4.3 Nvidia DGX A100 CPU與內(nèi)存子系統(tǒng)的設(shè)計
4.4 Nvidia DGX A100 PCI-E子系統(tǒng)的設(shè)計
4.5 Nvidia DGX A100 NVLink子系統(tǒng)的設(shè)計
4.6 其他輔助子系統(tǒng)的設(shè)計
4.7 本章小結(jié)
第5章 機器學(xué)習(xí)所依托的I/O框架體系
5.1 Magnum IO的需求來源
5.2 Magnum IO的核心組件
5.3 服務(wù)器內(nèi)部的GPU互通
5.4 跨服務(wù)器節(jié)點的GPU通信
5.5 RDMA的兩種實現(xiàn)
5.6 GPU對存儲的訪問
5.7 Magnum IO所依賴的其他支撐技術(shù)
5.7.1 DPDK( Data Plane Development Kit,數(shù)據(jù)平面開發(fā)套件)
5.7.2 DPU(Data Processing Unit,數(shù)據(jù)處理器)
5.7.3 MPI Tag Matching
5.8 本章小結(jié)
第6章 GPU集群的網(wǎng)絡(luò)設(shè)計與實現(xiàn)
6.1 GPU集群中RoCE計算網(wǎng)絡(luò)的設(shè)計與實現(xiàn)
6.2 GPU集群中存儲與業(yè)務(wù)網(wǎng)絡(luò)的設(shè)計與實現(xiàn)
6.3 GPU集群中帶外管理監(jiān)控網(wǎng)絡(luò)的設(shè)計與實現(xiàn)
6.4 GPU集群中網(wǎng)絡(luò)邊界的設(shè)計與實現(xiàn)
6.5 本章小結(jié)
第7章 GPU板卡級算力調(diào)度技術(shù)
7.1 基于虛擬化技術(shù)的GPU調(diào)度
7.2 基于容器技術(shù)的GPU調(diào)度
7.3 本章小結(jié)
第8章 GPU虛擬化調(diào)度方案
8.1 Nvidia的GPU虛擬化調(diào)度方案
8.1.1 API Remoting與vCUDA
8.1.2 GRID vGPU
8.1.3 Nvidia MIG
8.2 其他硬件廠商的GPU虛擬化調(diào)度方案
8.2.1 AMD的SRIOV方案
8.2.2 Intel的GVT-G方案
8.3 云廠商與開源社區(qū)基于容器的GPU虛擬化調(diào)度方案
8.3.1 TKE vCUDA GPU Manager
8.3.2 阿里云的cGPU
8.3.3 騰訊云的qGPU
8.4 本章小結(jié)
第9章 GPU集群的網(wǎng)絡(luò)虛擬化設(shè)計與實現(xiàn)
9.1 基于SDN的VPC技術(shù):網(wǎng)絡(luò)虛擬化技術(shù)的基石
9.2 云負載均衡:機器學(xué)習(xí)網(wǎng)絡(luò)的中流砥柱
9.3 專線接入、對等連接與VPC網(wǎng)關(guān)
9.4 SDN NFV網(wǎng)關(guān)的實現(xiàn)與部署
9.4.1 基于virtio-net/vhost的虛擬機部署NFV
9.4.2 基于SRIOV的虛擬機部署NFV
9.4.3 使用DPDK技術(shù)對NFV加速
9.5 本章小結(jié)
第10章 GPU集群的存儲設(shè)計與實現(xiàn)
10.1 程序與系統(tǒng)存儲——分布式塊存儲
10.1.1 塊存儲的業(yè)務(wù)需求
10.1.2 集中式塊存儲與分布式塊存儲
10.1.3 分布式塊存儲的故障恢復(fù)
10.1.4 分布式塊存儲的性能優(yōu)化
10.1.5 分布式塊存儲的快照與回滾
10.2 海量非結(jié)構(gòu)化數(shù)據(jù)存儲——分布式對象存儲
10.2.1 入門級對象存儲的首選:Ceph
10.2.2 開源海量對象存儲:Swift
10.2.3 商業(yè)化對象存儲:大型公有云對象存儲私有化
10.2.4 未來之星:Minio
10.3 AI訓(xùn)練素材存儲——分布式并發(fā)高性能存儲
10.3.1 開源大數(shù)據(jù)存儲鼻祖:HDFS
10.3.2 業(yè)界對HDFS的改進
10.3.3 長青松柏:Lustre
10.4 本章小結(jié)
第11章 機器學(xué)習(xí)應(yīng)用開發(fā)與運行平臺的設(shè)計與實現(xiàn)
11.1 微服務(wù)平臺
11.1.1 Kubernetes:微服務(wù)基礎(chǔ)能力平臺
11.1.2 Spring Cloud:Java系專屬微服務(wù)平臺
11.1.3 Istio:不挑開發(fā)語言,只挑部署架構(gòu)
11.1.4 商業(yè)化微服務(wù)平臺:兼顧各類需求的選擇
11.2 中間件服務(wù)
11.2.1 消息中間件
11.2.2 緩存中間件
11.2.3 數(shù)據(jù)庫(數(shù)據(jù)中間件)
11.3 應(yīng)用日志服務(wù)
11.4 本章小結(jié)
第12章 基于云平臺的GPU集群的管理與運營
12.1 云運維平臺
12.1.1 硬件基礎(chǔ)設(shè)施管理
12.1.2 系統(tǒng)監(jiān)控與告警平臺
12.1.3 CMDB
12.2 云運營平臺
12.3 云審計平臺
12.4 本章小結(jié)
第13章 服務(wù)機器學(xué)習(xí)的GPU計算平臺落地案例
13.1 需求來源:自動駕駛模型訓(xùn)練
13.2 總體設(shè)計——基于云原生的高性能計算
13.3 計算需求分析與設(shè)計實現(xiàn)
13.4 存儲需求分析與設(shè)計實現(xiàn)
13.5 網(wǎng)絡(luò)需求分析與設(shè)計實現(xiàn)
13.6 本章小結(jié)
后記
大模型時代的基礎(chǔ)架構(gòu):大模型算力中心建設(shè)指南 作者簡介
方天戟騰訊專有云與智算平臺shou席架構(gòu)師,本科畢業(yè)于北京航空航天大學(xué)自動控制專業(yè),碩士研究生畢業(yè)于中國科學(xué)院研究生院計算機科學(xué)與技術(shù)專業(yè)。從業(yè)近20年,從事過硬件開發(fā)、內(nèi)核與驅(qū)動開發(fā)、協(xié)議棧開發(fā)、網(wǎng)絡(luò)與云計算解決方案設(shè)計等工作,曾在華為、新華三、Juniper等企業(yè)任職,為航天科技、中國建筑、BMW及環(huán)球影城等國內(nèi)外知名客戶設(shè)計且落地過云計算與網(wǎng)絡(luò)解決方案。“云鑒”叢書編寫組核心成員。微信公眾號:帥云霓的技術(shù)小屋
- >
詩經(jīng)-先民的歌唱
- >
山海經(jīng)
- >
二體千字文
- >
伊索寓言-世界文學(xué)名著典藏-全譯本
- >
經(jīng)典常談
- >
上帝之肋:男人的真實旅程
- >
史學(xué)評論
- >
龍榆生:詞曲概論/大家小書