-
>
貨幣大歷史:金融霸權(quán)與大國(guó)興衰六百年
-
>
(精)方力鈞作品圖錄
-
>
《藏書(shū)報(bào)》2021合訂本
-
>
(精)中國(guó)當(dāng)代書(shū)畫(huà)名家作品集·范碩:書(shū)法卷+繪畫(huà)卷(全2卷)
-
>
(噴繪樓閣版)女主臨朝:武則天的權(quán)力之路
-
>
書(shū)里掉出來(lái)一只狼+狼的故事-全2冊(cè)
-
>
奇思妙想創(chuàng)意玩具書(shū)(精裝4冊(cè))
多模態(tài)大模型技術(shù)與開(kāi)發(fā)實(shí)戰(zhàn) 版權(quán)信息
- ISBN:9787115655387
- 條形碼:9787115655387 ; 978-7-115-65538-7
- 裝幀:平裝
- 冊(cè)數(shù):暫無(wú)
- 重量:暫無(wú)
- 所屬分類(lèi):
多模態(tài)大模型技術(shù)與開(kāi)發(fā)實(shí)戰(zhàn) 本書(shū)特色
本書(shū)用三個(gè)案例講解多模態(tài)大模型的落地實(shí)踐
系統(tǒng)地講解了多模態(tài)技術(shù)的基礎(chǔ)理論、發(fā)展歷程及其廣泛的應(yīng)用場(chǎng)景,深入地介紹了圖像、文本、音頻和視頻等多模態(tài)數(shù)據(jù)的處理方法。
內(nèi)容涵蓋主流深度學(xué)習(xí)框架和多模態(tài)模型的核心原理,并配以實(shí)際開(kāi)發(fā)中的應(yīng)用案例與完整實(shí)例代碼。
詳細(xì)講解了多模態(tài)數(shù)據(jù)的預(yù)處理、數(shù)據(jù)增強(qiáng)和特征提取方法,系統(tǒng)地闡述了多模態(tài)表示學(xué)習(xí)的關(guān)鍵技術(shù),并提供全面的模型評(píng)估與驗(yàn)證方法。
通過(guò)實(shí)用案例介紹了多模態(tài)翻譯系統(tǒng)的開(kāi)發(fā)過(guò)程、基于多模態(tài)大模型的音視頻廣義零樣本學(xué)習(xí)系統(tǒng)的實(shí)現(xiàn),以及文生圖生成系統(tǒng)的設(shè)計(jì)思路,為讀者提供豐富的實(shí)戰(zhàn)案例與開(kāi)發(fā)指導(dǎo)。
本書(shū)用三個(gè)案例講解多模態(tài)大模型的落地實(shí)踐
系統(tǒng)地講解了多模態(tài)技術(shù)的基礎(chǔ)理論、發(fā)展歷程及其廣泛的應(yīng)用場(chǎng)景,深入地介紹了圖像、文本、音頻和視頻等多模態(tài)數(shù)據(jù)的處理方法。
內(nèi)容涵蓋主流深度學(xué)習(xí)框架和多模態(tài)模型的核心原理,并配以實(shí)際開(kāi)發(fā)中的應(yīng)用案例與完整實(shí)例代碼。
詳細(xì)講解了多模態(tài)數(shù)據(jù)的預(yù)處理、數(shù)據(jù)增強(qiáng)和特征提取方法,系統(tǒng)地闡述了多模態(tài)表示學(xué)習(xí)的關(guān)鍵技術(shù),并提供全面的模型評(píng)估與驗(yàn)證方法。
通過(guò)實(shí)用案例介紹了多模態(tài)翻譯系統(tǒng)的開(kāi)發(fā)過(guò)程、基于多模態(tài)大模型的音視頻廣義零樣本學(xué)習(xí)系統(tǒng)的實(shí)現(xiàn),以及文生圖生成系統(tǒng)的設(shè)計(jì)思路,為讀者提供豐富的實(shí)戰(zhàn)案例與開(kāi)發(fā)指導(dǎo)。
作者主導(dǎo)多個(gè)垂直領(lǐng)域的大模型項(xiàng)目,包括心理領(lǐng)域的MindChat(漫談)、醫(yī)療領(lǐng)域的 Sunsimiao(孫思邈)、教育領(lǐng)域的 GradChat(錦鯉),以及通用多模態(tài)大模型KarmaVLM(相生),所主持的 GitHub 項(xiàng)目累計(jì)獲得超過(guò) 4000 次 Star。
多模態(tài)大模型技術(shù)與開(kāi)發(fā)實(shí)戰(zhàn) 內(nèi)容簡(jiǎn)介
本書(shū)循序漸進(jìn)地闡述了多模態(tài)大模型的核心開(kāi)發(fā)技術(shù)與應(yīng)用實(shí)戰(zhàn)的知識(shí)。全書(shū)共10章,分別講解了多模態(tài)技術(shù)概述、多模態(tài)模型與框架、多模態(tài)數(shù)據(jù)處理、多模態(tài)表示學(xué)習(xí)、多模態(tài)嵌入表示、多模態(tài)大模型的訓(xùn)練、多模態(tài)大模型的評(píng)估與驗(yàn)證、基于多模態(tài)大模型的翻譯系統(tǒng)、基于多模態(tài)大模型的音視頻廣義零樣本學(xué)習(xí)系統(tǒng)、基于Diffusion Transformer的文生圖系統(tǒng)。全書(shū)簡(jiǎn)潔而不失技術(shù)深度,內(nèi)容豐富全面,案例翔實(shí),以通俗易懂的文字介紹了復(fù)雜的知識(shí)體系,易于閱讀,是學(xué)習(xí)多模態(tài)大模型開(kāi)發(fā)的實(shí)用教程。 本書(shū)適用于已經(jīng)了解了Python語(yǔ)言基礎(chǔ)語(yǔ)法,想進(jìn)一步學(xué)習(xí)大模型開(kāi)發(fā)、自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)處理、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)技術(shù)的讀者,還可以作為各類(lèi)院校相關(guān)專(zhuān)業(yè)師生的學(xué)習(xí)用書(shū)和培訓(xùn)學(xué)校的教材。
多模態(tài)大模型技術(shù)與開(kāi)發(fā)實(shí)戰(zhàn) 目錄
1.1 多模態(tài)技術(shù)簡(jiǎn)介 1
1.1.1 什么是多模態(tài) 1
1.1.2 多模態(tài)技術(shù)的發(fā)展歷史 2
1.1.3 多模態(tài)技術(shù)的應(yīng)用場(chǎng)景 3
1.2 多模態(tài)數(shù)據(jù)類(lèi)型 4
1.2.1 常見(jiàn)的多模態(tài)類(lèi)型 4
1.2.2 圖像數(shù)據(jù) 4
1.2.3 文本數(shù)據(jù) 5
1.2.4 音頻數(shù)據(jù) 5
1.2.5 視頻數(shù)據(jù) 6
1.3 多模態(tài)技術(shù)的基本原理 6
1.3.1 數(shù)據(jù)融合與對(duì)齊 6
1.3.2 多模態(tài)表示學(xué)習(xí) 7
1.3.3 多模態(tài)推理 8
第 2 章 多模態(tài)模型與框架 10
2.1 常用的深度學(xué)習(xí)框架 10
2.1.1 Tensor Flow 10
2.1.2 PyTorch 11
2.1.3 Keras 11
2.1.4 Transformer 12
2.2 多模態(tài)模型技術(shù) 13
2.2.1 ViLBERT 模型 13
2.2.2 VisualBERT 模型 14
2.2.3 OpenAI CLIP 模型 15
2.2.4 UNITER 模型 16
2.2.5 LXMERT 模型 17
2.2.6 SigLIP 模型 18
2.2.7 LoRA 微調(diào)技術(shù) 18
2.2.8 LLaVA 模型 18
2.3 預(yù)訓(xùn)練模型 19
2.3.1 預(yù)訓(xùn)練模型簡(jiǎn)介 19
2.3.2 使用預(yù)訓(xùn)練模型 20
2.3.3 預(yù)訓(xùn)練模型的微調(diào) 24
第 3 章 多模態(tài)數(shù)據(jù)處理 28
3.1 數(shù)據(jù)預(yù)處理 28
3.1.1 文本預(yù)處理 28
3.1.2 圖像預(yù)處理 39
3.1.3 音頻預(yù)處理 43
3.1.4 視頻預(yù)處理 50
3.2 數(shù)據(jù)增強(qiáng) 51
3.2.1 文本數(shù)據(jù)增強(qiáng) 51
3.2.2 圖像數(shù)據(jù)增強(qiáng) 54
3.2.3 音頻數(shù)據(jù)增強(qiáng) 55
3.2.4 視頻數(shù)據(jù)增強(qiáng) 57
3.3 特征提取 59
3.3.1 特征在大模型中的關(guān)鍵作用 60
3.3.2 文本特征提取 60
3.3.3 圖像特征提取 64
3.3.4 音頻特征提取 67
3.3.5 視頻特征提取 68
第 4 章 多模態(tài)表示學(xué)習(xí) 71
4.1 多模態(tài)表示學(xué)習(xí)介紹 71
4.1.1 多模態(tài)表示學(xué)習(xí)簡(jiǎn)介 71
4.1.2 多模態(tài)表示學(xué)習(xí)的主要方法 71
4.2 多模態(tài)表示學(xué)習(xí)方法 72
4.2.1 表示融合 72
4.2.2 聯(lián)合學(xué)習(xí) 76
4.2.3 表示對(duì)齊 79
4.2.4 模態(tài)間關(guān)系建模 83
4.3 基于 S3D MIL-NCE 的多模態(tài)文本到視頻檢索 86
4.3.1 項(xiàng)目介紹 86
4.3.2 準(zhǔn)備工作 87
4.3.3 視頻加載和可視化 87
4.3.4 加載視頻并定義文本查詢(xún) 89
4.3.5 預(yù)處理視頻和查詢(xún) 90
4.3.6 展示結(jié)果 90
第 5 章 多模態(tài)嵌入模式 92
5.1 多模態(tài)嵌入基礎(chǔ) 92
5.1.1 多模態(tài)嵌入介紹 92
5.1.2 多模態(tài)嵌入的應(yīng)用 92
5.2 圖像嵌入 93
5.2.1 圖像嵌入介紹 93
5.2.2 圖像特征提取 94
5.2.3 模態(tài)對(duì)齊 97
5.2.4 CLIP 模型 100
5.3 文本嵌入 101
5.3.1 多模態(tài)模型中的文本嵌入 101
5.3.2 基于 CLIP 模型的文本嵌入 103
5.4 音頻嵌入 105
5.4.1 音頻特征提取 105
5.4.2 常用音頻嵌入模型 107
5.5 多模態(tài)圖像搜索引擎 109
5.5.1 項(xiàng)目介紹 109
5.5.2 CLIP 模型的配置參數(shù) 110
5.5.3 數(shù)據(jù)集處理 111
5.5.4 實(shí)現(xiàn) Bangla CLIP 模型 115
5.5.5 基于文本的圖像搜索 117
5.5.6 基于 Streamlit 的 Web客戶(hù)端 118
第 6 章 多模態(tài)大模型的訓(xùn)練 121
6.1 模型訓(xùn)練的過(guò)程 121
6.2 訓(xùn)練策略 122
6.2.1 預(yù)訓(xùn)練與微調(diào) 122
6.2.2 多任務(wù)學(xué)習(xí) 125
6.2.3 全量微調(diào) 127
6.2.4 對(duì)比學(xué)習(xí) 129
6.2.5 參數(shù)高效微調(diào) 131
6.2.6 遷移學(xué)習(xí) 133
6.2.7 人類(lèi)反饋強(qiáng)化學(xué)習(xí) 135
6.2.8 動(dòng)態(tài)學(xué)習(xí)率調(diào)整 137
6.2.9 SFT 微調(diào) 138
6.3 CLIP 模型訓(xùn)練與微調(diào) 141
6.3.1 項(xiàng)目介紹 141
6.3.2 創(chuàng)建文本和圖像配對(duì)數(shù)據(jù)集 142
6.3.3 構(gòu)建多模態(tài)模型 145
6.3.4 訓(xùn)練模型 161
6.3.5 模型微調(diào) 162
6.3.6 調(diào)試運(yùn) 162
第 7 章 多模態(tài)大模型的評(píng)估與驗(yàn)證 164
7.1 模型評(píng)估 164
7.1.1 模型評(píng)估的必要性 164
7.1.2 評(píng)估指標(biāo) 165
7.1.3 單模態(tài)性能評(píng)估 168
7.1.4 多模態(tài)融合性能評(píng)估 170
7.1.5 效率與資源使用 171
7.1.6 定性評(píng)估和復(fù)雜場(chǎng)景評(píng)估 172
7.1.7 語(yǔ)音命令識(shí)別系統(tǒng) 173
7.2 模型驗(yàn)證 183
7.2.1 模型驗(yàn)證的必要性 183
7.2.2 數(shù)據(jù)準(zhǔn)備和分割 184
7.2.3 交叉驗(yàn)證 185
7.2.4 嵌套交叉驗(yàn)證 188
7.2.5 模態(tài)間一致性驗(yàn)證 189
7.2.6 模型魯棒性驗(yàn)證 190
7.2.7 驗(yàn)證指標(biāo) 192
7.3 多模態(tài)大模型評(píng)估基準(zhǔn) 195
7.3.1 MM-Vet 195
7.3.2 MMEvalPro 196
7.3.3 MMT-Bench 197
7.4 CLIP 模型的增強(qiáng)訓(xùn)練與評(píng)估 197
7.4.1 項(xiàng)目介紹 197
7.4.2 定義數(shù)據(jù)集 198
7.4.3 創(chuàng)建模型 201
7.4.4 分詞器 207
7.4.5 損失函數(shù) 209
7.4.6 模型訓(xùn)練 210
7.4.7 模型評(píng)估 218
7.4.8 文本重寫(xiě) 221
第 8 章 基于多模態(tài)大模型的翻譯系統(tǒng) 225
8.1 背景介紹 225
8.2 系統(tǒng)分析 225
8.2.1 系統(tǒng)需求分析 225
8.2.2 技術(shù)架構(gòu)分析 226
8.2.3 項(xiàng)目介紹 226
8.3 準(zhǔn)備數(shù)據(jù)集 227
8.3.1 Multi30k 數(shù)據(jù)集介紹 227
8.3.2 下載 Multi30k 數(shù)據(jù)集 227
8.3.3 下載 WIT 數(shù)據(jù)集中的圖像數(shù)據(jù) 229
8.4 數(shù)據(jù)集處理 230
8.4.1 PyTorch 數(shù)據(jù)集類(lèi) 230
8.4.2 數(shù)據(jù)處理和后處理 233
8.4.3 數(shù)據(jù)集填充 236
8.4.4 獲取 Multi30k 數(shù)據(jù)集的數(shù)據(jù) 237
8.4.5 獲取 WIT 數(shù)據(jù)集的數(shù)據(jù) 239
8.4.6 獲取 WMT 數(shù)據(jù)集的文本數(shù)據(jù) 241
8.5 多模態(tài)大模型 243
8.5.1 功能函數(shù) 243
8.5.2 適配器模型 244
8.5.3 獲取文本輸入的嵌入表示 245
8.5.4 多模態(tài)模型類(lèi) 246
8.5.5 多模態(tài)文本生成任務(wù)模型 247
8.5.6 分布式訓(xùn)練 248
8.5.7 模型訓(xùn)練和測(cè)試 250
8.5.8 主程序 253
第 9 章 基于多模態(tài)大模型的音視頻廣義零樣本學(xué)習(xí)系統(tǒng) 256
9.1 背景介紹 256
9.2 系統(tǒng)分析 256
9.2.1 系統(tǒng)需求分析 256
9.2.2 功能分析 257
9.3 系統(tǒng)配置 258
9.3.1 命令行接口 258
9.3.2 數(shù)據(jù)集處理 260
9.3.3 輔助函數(shù) 267
9.4 特征提取 275
9.4.1 從 ActivityNet 數(shù)據(jù)集提取特征 275
9.4.2 從 UCF101 數(shù)據(jù)集提取特征 278
9.4.3 從 VGGSound 數(shù)據(jù)集提取特征 280
9.5 多模態(tài)模型 283
9.5.1 多模態(tài)數(shù)據(jù)學(xué)習(xí)模型 283
9.5.2 性能評(píng)估指標(biāo) 289
9.5.3 模型優(yōu)化器 295
9.5.4 模型訓(xùn)練和驗(yàn)證 296
9.5.5 模型的評(píng)估 300
9.5.6 主文件 302
9.6 調(diào)試運(yùn)行 307
第 10 章 基于 Diffusion Transformer 的文生圖系統(tǒng) 310
10.1 Diffusion Transformer 介紹 310
10.1.1 Diffusion Transformer 的特點(diǎn) 310
10.1.2 Stable Diffusion 和 DiffusionTransformer 的區(qū)別和聯(lián)系 310
10.2 項(xiàng)目介紹 311
10.3 準(zhǔn)備預(yù)訓(xùn)練模型 312
10.4 擴(kuò)散模型核心模塊 313
10.4.1 計(jì)算高斯分布概率 313
10.4.2 實(shí)現(xiàn)擴(kuò)散模型 314
10.4.3 模型擴(kuò)展 328
10.4.4 采樣器調(diào)度 330
10.5 訓(xùn)練模型 333
10.5.1 定義不同配置的 DiT模型 333
10.5.2 *小訓(xùn)練腳本 341
10.5.3 實(shí)現(xiàn) DiT 模型 343
10.5.4 DiT 模型的標(biāo)準(zhǔn)訓(xùn)練 344
10.5.5 DiT 模型的全精度訓(xùn)練 347
10.5.6 DiT 模型的特征預(yù)訓(xùn)練 352
10.5.7 DiT 模型的特原始訓(xùn)練 352
10.5.8 DiT 模型的禁用 TF32 模式訓(xùn)練 352
10.6 生成圖像 353
10.6.1 預(yù)訓(xùn)練生成 353
10.6.2 基于 DDP 的圖像生成 354
10.7 調(diào)試運(yùn)行 357
多模態(tài)大模型技術(shù)與開(kāi)發(fā)實(shí)戰(zhàn) 作者簡(jiǎn)介
薛棟,華東理工大學(xué)信息科學(xué)與技術(shù)學(xué)院副教授/碩士生導(dǎo)師,德國(guó)慕尼黑工業(yè)大學(xué)工學(xué)博士,“上海市高層次青年人才計(jì)劃”、“浦江人才計(jì)劃”、華理“青年英才培育計(jì)劃”獲得者。長(zhǎng)期從事基于人工智能與大數(shù)據(jù)相關(guān)研究,其中包括自然語(yǔ)言處理與大語(yǔ)言模型、工業(yè)互聯(lián)網(wǎng)與工業(yè)軟件、復(fù)雜網(wǎng)絡(luò)與多智能體系統(tǒng)等課題。主導(dǎo)多個(gè)垂直領(lǐng)域的大模型項(xiàng)目,包括心理領(lǐng)域的MindChat(漫談)、醫(yī)療領(lǐng)域的 Sunsimiao(孫思邈)、教育領(lǐng)域的 GradChat(錦鯉),以及通用多模態(tài)大模型KarmaVLM(相生),所主持的 GitHub 項(xiàng)目累計(jì)獲得超過(guò) 4000 次 Star。
- >
二體千字文
- >
伯納黛特,你要去哪(2021新版)
- >
中國(guó)歷史的瞬間
- >
新文學(xué)天穹兩巨星--魯迅與胡適/紅燭學(xué)術(shù)叢書(shū)(紅燭學(xué)術(shù)叢書(shū))
- >
煙與鏡
- >
人文閱讀與收藏·良友文學(xué)叢書(shū):一天的工作
- >
我從未如此眷戀人間
- >
【精裝繪本】畫(huà)給孩子的中國(guó)神話