国产第1页_91在线亚洲_中文字幕成人_99久久久久久_五月宗合网_久久久久国产一区二区三区四区

讀書(shū)月攻略拿走直接抄!
歡迎光臨中圖網(wǎng) 請(qǐng) | 注冊(cè)
>
多模態(tài)大模型技術(shù)與開(kāi)發(fā)實(shí)戰(zhàn)

包郵 多模態(tài)大模型技術(shù)與開(kāi)發(fā)實(shí)戰(zhàn)

作者:薛棟 著
出版社:人民郵電出版社出版時(shí)間:2025-02-01
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 359
中 圖 價(jià):¥82.4(7.5折) 定價(jià)  ¥109.8 登錄后可看到會(huì)員價(jià)
加入購(gòu)物車(chē) 收藏
開(kāi)年大促, 全場(chǎng)包郵
?新疆、西藏除外
本類(lèi)五星書(shū)更多>

多模態(tài)大模型技術(shù)與開(kāi)發(fā)實(shí)戰(zhàn) 版權(quán)信息

  • ISBN:9787115655387
  • 條形碼:9787115655387 ; 978-7-115-65538-7
  • 裝幀:平裝
  • 冊(cè)數(shù):暫無(wú)
  • 重量:暫無(wú)
  • 所屬分類(lèi):

多模態(tài)大模型技術(shù)與開(kāi)發(fā)實(shí)戰(zhàn) 本書(shū)特色

本書(shū)用三個(gè)案例講解多模態(tài)大模型的落地實(shí)踐



系統(tǒng)地講解了多模態(tài)技術(shù)的基礎(chǔ)理論、發(fā)展歷程及其廣泛的應(yīng)用場(chǎng)景,深入地介紹了圖像、文本、音頻和視頻等多模態(tài)數(shù)據(jù)的處理方法。



內(nèi)容涵蓋主流深度學(xué)習(xí)框架和多模態(tài)模型的核心原理,并配以實(shí)際開(kāi)發(fā)中的應(yīng)用案例與完整實(shí)例代碼。



詳細(xì)講解了多模態(tài)數(shù)據(jù)的預(yù)處理、數(shù)據(jù)增強(qiáng)和特征提取方法,系統(tǒng)地闡述了多模態(tài)表示學(xué)習(xí)的關(guān)鍵技術(shù),并提供全面的模型評(píng)估與驗(yàn)證方法。



通過(guò)實(shí)用案例介紹了多模態(tài)翻譯系統(tǒng)的開(kāi)發(fā)過(guò)程、基于多模態(tài)大模型的音視頻廣義零樣本學(xué)習(xí)系統(tǒng)的實(shí)現(xiàn),以及文生圖生成系統(tǒng)的設(shè)計(jì)思路,為讀者提供豐富的實(shí)戰(zhàn)案例與開(kāi)發(fā)指導(dǎo)。
本書(shū)用三個(gè)案例講解多模態(tài)大模型的落地實(shí)踐



系統(tǒng)地講解了多模態(tài)技術(shù)的基礎(chǔ)理論、發(fā)展歷程及其廣泛的應(yīng)用場(chǎng)景,深入地介紹了圖像、文本、音頻和視頻等多模態(tài)數(shù)據(jù)的處理方法。



內(nèi)容涵蓋主流深度學(xué)習(xí)框架和多模態(tài)模型的核心原理,并配以實(shí)際開(kāi)發(fā)中的應(yīng)用案例與完整實(shí)例代碼。



詳細(xì)講解了多模態(tài)數(shù)據(jù)的預(yù)處理、數(shù)據(jù)增強(qiáng)和特征提取方法,系統(tǒng)地闡述了多模態(tài)表示學(xué)習(xí)的關(guān)鍵技術(shù),并提供全面的模型評(píng)估與驗(yàn)證方法。



通過(guò)實(shí)用案例介紹了多模態(tài)翻譯系統(tǒng)的開(kāi)發(fā)過(guò)程、基于多模態(tài)大模型的音視頻廣義零樣本學(xué)習(xí)系統(tǒng)的實(shí)現(xiàn),以及文生圖生成系統(tǒng)的設(shè)計(jì)思路,為讀者提供豐富的實(shí)戰(zhàn)案例與開(kāi)發(fā)指導(dǎo)。



作者主導(dǎo)多個(gè)垂直領(lǐng)域的大模型項(xiàng)目,包括心理領(lǐng)域的MindChat(漫談)、醫(yī)療領(lǐng)域的 Sunsimiao(孫思邈)、教育領(lǐng)域的 GradChat(錦鯉),以及通用多模態(tài)大模型KarmaVLM(相生),所主持的 GitHub 項(xiàng)目累計(jì)獲得超過(guò) 4000 次 Star。

多模態(tài)大模型技術(shù)與開(kāi)發(fā)實(shí)戰(zhàn) 內(nèi)容簡(jiǎn)介

本書(shū)循序漸進(jìn)地闡述了多模態(tài)大模型的核心開(kāi)發(fā)技術(shù)與應(yīng)用實(shí)戰(zhàn)的知識(shí)。全書(shū)共10章,分別講解了多模態(tài)技術(shù)概述、多模態(tài)模型與框架、多模態(tài)數(shù)據(jù)處理、多模態(tài)表示學(xué)習(xí)、多模態(tài)嵌入表示、多模態(tài)大模型的訓(xùn)練、多模態(tài)大模型的評(píng)估與驗(yàn)證、基于多模態(tài)大模型的翻譯系統(tǒng)、基于多模態(tài)大模型的音視頻廣義零樣本學(xué)習(xí)系統(tǒng)、基于Diffusion Transformer的文生圖系統(tǒng)。全書(shū)簡(jiǎn)潔而不失技術(shù)深度,內(nèi)容豐富全面,案例翔實(shí),以通俗易懂的文字介紹了復(fù)雜的知識(shí)體系,易于閱讀,是學(xué)習(xí)多模態(tài)大模型開(kāi)發(fā)的實(shí)用教程。 本書(shū)適用于已經(jīng)了解了Python語(yǔ)言基礎(chǔ)語(yǔ)法,想進(jìn)一步學(xué)習(xí)大模型開(kāi)發(fā)、自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)處理、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)技術(shù)的讀者,還可以作為各類(lèi)院校相關(guān)專(zhuān)業(yè)師生的學(xué)習(xí)用書(shū)和培訓(xùn)學(xué)校的教材。

多模態(tài)大模型技術(shù)與開(kāi)發(fā)實(shí)戰(zhàn) 目錄

第 1 章 多模態(tài)技術(shù)概述 1

1.1 多模態(tài)技術(shù)簡(jiǎn)介 1

1.1.1 什么是多模態(tài) 1

1.1.2 多模態(tài)技術(shù)的發(fā)展歷史 2

1.1.3 多模態(tài)技術(shù)的應(yīng)用場(chǎng)景 3

1.2 多模態(tài)數(shù)據(jù)類(lèi)型 4

1.2.1 常見(jiàn)的多模態(tài)類(lèi)型 4

1.2.2 圖像數(shù)據(jù) 4

1.2.3 文本數(shù)據(jù) 5

1.2.4 音頻數(shù)據(jù) 5

1.2.5 視頻數(shù)據(jù) 6

1.3 多模態(tài)技術(shù)的基本原理 6

1.3.1 數(shù)據(jù)融合與對(duì)齊 6

1.3.2 多模態(tài)表示學(xué)習(xí) 7

1.3.3 多模態(tài)推理 8

第 2 章 多模態(tài)模型與框架 10

2.1 常用的深度學(xué)習(xí)框架 10

2.1.1 Tensor Flow 10

2.1.2 PyTorch 11

2.1.3 Keras 11

2.1.4 Transformer 12

2.2 多模態(tài)模型技術(shù) 13

2.2.1 ViLBERT 模型 13

2.2.2 VisualBERT 模型 14

2.2.3 OpenAI CLIP 模型 15

2.2.4 UNITER 模型 16

2.2.5 LXMERT 模型 17

2.2.6 SigLIP 模型 18

2.2.7 LoRA 微調(diào)技術(shù) 18

2.2.8 LLaVA 模型 18

2.3 預(yù)訓(xùn)練模型 19

2.3.1 預(yù)訓(xùn)練模型簡(jiǎn)介 19

2.3.2 使用預(yù)訓(xùn)練模型 20

2.3.3 預(yù)訓(xùn)練模型的微調(diào) 24

第 3 章 多模態(tài)數(shù)據(jù)處理 28

3.1 數(shù)據(jù)預(yù)處理 28

3.1.1 文本預(yù)處理 28

3.1.2 圖像預(yù)處理 39

3.1.3 音頻預(yù)處理 43

3.1.4 視頻預(yù)處理 50

3.2 數(shù)據(jù)增強(qiáng) 51

3.2.1 文本數(shù)據(jù)增強(qiáng) 51

3.2.2 圖像數(shù)據(jù)增強(qiáng) 54

3.2.3 音頻數(shù)據(jù)增強(qiáng) 55

3.2.4 視頻數(shù)據(jù)增強(qiáng) 57

3.3 特征提取 59

3.3.1 特征在大模型中的關(guān)鍵作用 60

3.3.2 文本特征提取 60

3.3.3 圖像特征提取 64

3.3.4 音頻特征提取 67

3.3.5 視頻特征提取 68

第 4 章 多模態(tài)表示學(xué)習(xí) 71

4.1 多模態(tài)表示學(xué)習(xí)介紹 71

4.1.1 多模態(tài)表示學(xué)習(xí)簡(jiǎn)介 71

4.1.2 多模態(tài)表示學(xué)習(xí)的主要方法 71

4.2 多模態(tài)表示學(xué)習(xí)方法 72

4.2.1 表示融合 72

4.2.2 聯(lián)合學(xué)習(xí) 76

4.2.3 表示對(duì)齊 79

4.2.4 模態(tài)間關(guān)系建模 83

4.3 基于 S3D MIL-NCE 的多模態(tài)文本到視頻檢索 86

4.3.1 項(xiàng)目介紹 86

4.3.2 準(zhǔn)備工作 87

4.3.3 視頻加載和可視化 87

4.3.4 加載視頻并定義文本查詢(xún) 89

4.3.5 預(yù)處理視頻和查詢(xún) 90

4.3.6 展示結(jié)果 90

第 5 章 多模態(tài)嵌入模式 92

5.1 多模態(tài)嵌入基礎(chǔ) 92

5.1.1 多模態(tài)嵌入介紹 92

5.1.2 多模態(tài)嵌入的應(yīng)用 92

5.2 圖像嵌入 93

5.2.1 圖像嵌入介紹 93

5.2.2 圖像特征提取 94

5.2.3 模態(tài)對(duì)齊 97

5.2.4 CLIP 模型 100

5.3 文本嵌入 101

5.3.1 多模態(tài)模型中的文本嵌入 101

5.3.2 基于 CLIP 模型的文本嵌入 103

5.4 音頻嵌入 105

5.4.1 音頻特征提取 105

5.4.2 常用音頻嵌入模型 107

5.5 多模態(tài)圖像搜索引擎 109

5.5.1 項(xiàng)目介紹 109

5.5.2 CLIP 模型的配置參數(shù) 110

5.5.3 數(shù)據(jù)集處理 111

5.5.4 實(shí)現(xiàn) Bangla CLIP 模型 115

5.5.5 基于文本的圖像搜索 117

5.5.6 基于 Streamlit 的 Web客戶(hù)端 118

第 6 章 多模態(tài)大模型的訓(xùn)練 121

6.1 模型訓(xùn)練的過(guò)程 121

6.2 訓(xùn)練策略 122

6.2.1 預(yù)訓(xùn)練與微調(diào) 122

6.2.2 多任務(wù)學(xué)習(xí) 125

6.2.3 全量微調(diào) 127

6.2.4 對(duì)比學(xué)習(xí) 129

6.2.5 參數(shù)高效微調(diào) 131

6.2.6 遷移學(xué)習(xí) 133

6.2.7 人類(lèi)反饋強(qiáng)化學(xué)習(xí) 135

6.2.8 動(dòng)態(tài)學(xué)習(xí)率調(diào)整 137

6.2.9 SFT 微調(diào) 138

6.3 CLIP 模型訓(xùn)練與微調(diào) 141

6.3.1 項(xiàng)目介紹 141

6.3.2 創(chuàng)建文本和圖像配對(duì)數(shù)據(jù)集 142

6.3.3 構(gòu)建多模態(tài)模型 145

6.3.4 訓(xùn)練模型 161

6.3.5 模型微調(diào) 162

6.3.6 調(diào)試運(yùn) 162

第 7 章 多模態(tài)大模型的評(píng)估與驗(yàn)證 164

7.1 模型評(píng)估 164

7.1.1 模型評(píng)估的必要性 164

7.1.2 評(píng)估指標(biāo) 165

7.1.3 單模態(tài)性能評(píng)估 168

7.1.4 多模態(tài)融合性能評(píng)估 170

7.1.5 效率與資源使用 171

7.1.6 定性評(píng)估和復(fù)雜場(chǎng)景評(píng)估 172

7.1.7 語(yǔ)音命令識(shí)別系統(tǒng) 173

7.2 模型驗(yàn)證 183

7.2.1 模型驗(yàn)證的必要性 183

7.2.2 數(shù)據(jù)準(zhǔn)備和分割 184

7.2.3 交叉驗(yàn)證 185

7.2.4 嵌套交叉驗(yàn)證 188

7.2.5 模態(tài)間一致性驗(yàn)證 189

7.2.6 模型魯棒性驗(yàn)證 190

7.2.7 驗(yàn)證指標(biāo) 192

7.3 多模態(tài)大模型評(píng)估基準(zhǔn) 195

7.3.1 MM-Vet 195

7.3.2 MMEvalPro 196

7.3.3 MMT-Bench 197

7.4 CLIP 模型的增強(qiáng)訓(xùn)練與評(píng)估 197

7.4.1 項(xiàng)目介紹 197

7.4.2 定義數(shù)據(jù)集 198

7.4.3 創(chuàng)建模型 201

7.4.4 分詞器 207

7.4.5 損失函數(shù) 209

7.4.6 模型訓(xùn)練 210

7.4.7 模型評(píng)估 218

7.4.8 文本重寫(xiě) 221

第 8 章 基于多模態(tài)大模型的翻譯系統(tǒng) 225

8.1 背景介紹 225

8.2 系統(tǒng)分析 225

8.2.1 系統(tǒng)需求分析 225

8.2.2 技術(shù)架構(gòu)分析 226

8.2.3 項(xiàng)目介紹 226

8.3 準(zhǔn)備數(shù)據(jù)集 227

8.3.1 Multi30k 數(shù)據(jù)集介紹 227

8.3.2 下載 Multi30k 數(shù)據(jù)集 227

8.3.3 下載 WIT 數(shù)據(jù)集中的圖像數(shù)據(jù) 229

8.4 數(shù)據(jù)集處理 230

8.4.1 PyTorch 數(shù)據(jù)集類(lèi) 230

8.4.2 數(shù)據(jù)處理和后處理 233

8.4.3 數(shù)據(jù)集填充 236

8.4.4 獲取 Multi30k 數(shù)據(jù)集的數(shù)據(jù) 237

8.4.5 獲取 WIT 數(shù)據(jù)集的數(shù)據(jù) 239

8.4.6 獲取 WMT 數(shù)據(jù)集的文本數(shù)據(jù) 241

8.5 多模態(tài)大模型 243

8.5.1 功能函數(shù) 243

8.5.2 適配器模型 244

8.5.3 獲取文本輸入的嵌入表示 245

8.5.4 多模態(tài)模型類(lèi) 246

8.5.5 多模態(tài)文本生成任務(wù)模型 247

8.5.6 分布式訓(xùn)練 248

8.5.7 模型訓(xùn)練和測(cè)試 250

8.5.8 主程序 253

第 9 章 基于多模態(tài)大模型的音視頻廣義零樣本學(xué)習(xí)系統(tǒng) 256

9.1 背景介紹 256

9.2 系統(tǒng)分析 256

9.2.1 系統(tǒng)需求分析 256

9.2.2 功能分析 257

9.3 系統(tǒng)配置 258

9.3.1 命令行接口 258

9.3.2 數(shù)據(jù)集處理 260

9.3.3 輔助函數(shù) 267

9.4 特征提取 275

9.4.1 從 ActivityNet 數(shù)據(jù)集提取特征 275

9.4.2 從 UCF101 數(shù)據(jù)集提取特征 278

9.4.3 從 VGGSound 數(shù)據(jù)集提取特征 280

9.5 多模態(tài)模型 283

9.5.1 多模態(tài)數(shù)據(jù)學(xué)習(xí)模型 283

9.5.2 性能評(píng)估指標(biāo) 289

9.5.3 模型優(yōu)化器 295

9.5.4 模型訓(xùn)練和驗(yàn)證 296

9.5.5 模型的評(píng)估 300

9.5.6 主文件 302

9.6 調(diào)試運(yùn)行 307

第 10 章 基于 Diffusion Transformer 的文生圖系統(tǒng) 310

10.1 Diffusion Transformer 介紹 310

10.1.1 Diffusion Transformer 的特點(diǎn) 310

10.1.2 Stable Diffusion 和 DiffusionTransformer 的區(qū)別和聯(lián)系 310

10.2 項(xiàng)目介紹 311

10.3 準(zhǔn)備預(yù)訓(xùn)練模型 312

10.4 擴(kuò)散模型核心模塊 313

10.4.1 計(jì)算高斯分布概率 313

10.4.2 實(shí)現(xiàn)擴(kuò)散模型 314

10.4.3 模型擴(kuò)展 328

10.4.4 采樣器調(diào)度 330

10.5 訓(xùn)練模型 333

10.5.1 定義不同配置的 DiT模型 333

10.5.2 *小訓(xùn)練腳本 341

10.5.3 實(shí)現(xiàn) DiT 模型 343

10.5.4 DiT 模型的標(biāo)準(zhǔn)訓(xùn)練 344

10.5.5 DiT 模型的全精度訓(xùn)練 347

10.5.6 DiT 模型的特征預(yù)訓(xùn)練 352

10.5.7 DiT 模型的特原始訓(xùn)練 352

10.5.8 DiT 模型的禁用 TF32 模式訓(xùn)練 352

10.6 生成圖像 353

10.6.1 預(yù)訓(xùn)練生成 353

10.6.2 基于 DDP 的圖像生成 354

10.7 調(diào)試運(yùn)行 357
展開(kāi)全部

多模態(tài)大模型技術(shù)與開(kāi)發(fā)實(shí)戰(zhàn) 作者簡(jiǎn)介

薛棟,華東理工大學(xué)信息科學(xué)與技術(shù)學(xué)院副教授/碩士生導(dǎo)師,德國(guó)慕尼黑工業(yè)大學(xué)工學(xué)博士,“上海市高層次青年人才計(jì)劃”、“浦江人才計(jì)劃”、華理“青年英才培育計(jì)劃”獲得者。長(zhǎng)期從事基于人工智能與大數(shù)據(jù)相關(guān)研究,其中包括自然語(yǔ)言處理與大語(yǔ)言模型、工業(yè)互聯(lián)網(wǎng)與工業(yè)軟件、復(fù)雜網(wǎng)絡(luò)與多智能體系統(tǒng)等課題。主導(dǎo)多個(gè)垂直領(lǐng)域的大模型項(xiàng)目,包括心理領(lǐng)域的MindChat(漫談)、醫(yī)療領(lǐng)域的 Sunsimiao(孫思邈)、教育領(lǐng)域的 GradChat(錦鯉),以及通用多模態(tài)大模型KarmaVLM(相生),所主持的 GitHub 項(xiàng)目累計(jì)獲得超過(guò) 4000 次 Star。

暫無(wú)評(píng)論……
書(shū)友推薦
本類(lèi)暢銷(xiāo)
返回頂部
中圖網(wǎng)
在線客服
主站蜘蛛池模板: 中文字幕乱码亚洲无线三区 | 精品国产国产综合精品 | 久久香蕉国产精品一区二区三 | 成人黄视频| 天堂69亚洲精品中文字幕 | 久久青草18免费观看网站 | 亚洲婷婷综合色高清在线 | 国产久热精品无码激情 | 精品免费国产一区二区三区 | 成人午夜精品网站在线观看 | 国产精品久久久久毛片 | 偷拍与自拍 | 美女黄18以下禁止观看 | 亚洲视频在线免费看 | 久久亚洲精品国产亚洲老地址 | 国精产品一区二区三区 | 毛片基地看看成人免费 | 欧美夜夜骑| 亚洲综合伊人久久大杳蕉 | 精品久久国产字幕高潮 | 国产极品福利视频在线观看 | 精品欧美小视频在线观看 | 欧美成人性色生活片免费在线观看 | 国产精品久久久久av福利动漫 | 亚洲精品中文字幕无码蜜桃 | 毛片免费永久不卡视频观看 | 被三个男人绑着躁我好爽 | 福利视频10000 | 囯产精品一区二区三区线 | 国产三级精品三级男人的天堂 | 国产精品超清白人精品av | 日韩放荡少妇无码视频 | 亚洲欧美四级在线播放 | 亚洲国产欧美在线人网站 | yjizz视频| 免费观看黄色一级片 | 无码精品尤物一区二区三区 | 欧美成人中文字幕在线视频 | 亚洲日韩成人av无码网站 | 成人精品视频一区二区在线 | 在线成人精品国产区免费 |