-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰(zhàn)行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優(yōu)實踐之路
-
>
第一行代碼Android
-
>
JAVA持續(xù)交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
基于NLP的內容理解 版權信息
- ISBN:9787111720690
- 條形碼:9787111720690 ; 978-7-111-72069-0
- 裝幀:一般膠版紙
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>
基于NLP的內容理解 本書特色
適讀人群 :(1)人工智能相關專業(yè)研究員以及信息科學和計算機科學的愛好者(2)自然語言處理和機器學習中級讀者和愛好者(3)統(tǒng)計學或相關IT專業(yè)學生(1)作者背景資深:作者是資深AI技術專家,BAT高級算法工程師。 (2)作者經(jīng)驗豐富:作者在NLP、內容理解等領域有多年實踐經(jīng)驗。 (3)揭秘大模型:揭秘大模型的底層技術原理,詳解文本內容理解和生產(chǎn)的技術細節(jié)。 (4)解決6大難題:為內容重復理解、內容通順度識別及糾正、內容質量、標簽體系構建、文本摘要生成、文本糾錯6大內容理解難題提供基于NLP的解決方案。 (5)結合業(yè)務場景:所有內容、技術、算法均從實際業(yè)務場景出發(fā),從問題的角度拆解問題。 (6)大量NLP算法:書中系統(tǒng)講解了可用于內容理解的各種NLP算法的原理和使用。 (7)包含大量案例:以實戰(zhàn)為導向,用案例貫穿全書。
基于NLP的內容理解 內容簡介
本書一共7章。第1章詳細介紹了文本特征的表示方法。第2章主要從應用的角度介紹了標題、段落、文章重復三種場景及三種場景的具體實現(xiàn)。第3章介紹了數(shù)據(jù)增強方法、句子通順度識別方法以及補全不通順內容的方法。第4章從應用的角度詳細介紹了知識問答質量體系的搭建方法。第5章主要講述了標簽體系的原理及構建過程中用到的3種主要算法。第6章介紹了文本摘要生成中兩類流行的方法、常用的數(shù)據(jù)集以及文本摘要的評價方法。第7章介紹了文本中錯誤的類型、來源,文本糾錯的常用方法與框架等。
基于NLP的內容理解 目錄
CONTENTS
目 錄
前言
第1章 文本特征表示 1
1.1 語料與語料預處理 1
1.1.1 語料和語料庫 1
1.1.2 語料預處理 2
1.2 文本特征表示方法 6
1.2.1 離散型特征表示方法 6
1.2.2 分布型特征表示方法 13
1.3 詞向量的評判標準 29
1.3.1 內部評估 29
1.3.2 外在評估 31
1.4 本章小結 34
第2章 內容重復理解 35
2.1 標題重復 35
2.1.1 標題符號規(guī)整化處理 36
2.1.2 Jieba分詞 39
2.1.3 LAC分詞 43
2.1.4 基于分詞及字符串等
方式進行重復識別 45
2.2 段落重復識別實例 47
2.2.1 段落重復識別 47
2.2.2 基于N-gram算法進行
內容去重 48
2.2.3 平滑處理技術 54
2.3 基于相似度計算的文章判重 57
2.3.1 文本相似度計算任務
的分析 57
2.3.2 距離度量方式 58
2.3.3 基于SimHash算法進行
文本重復檢測 62
2.4 本章小結 66
第3章 內容通順度識別及糾正 67
3.1 數(shù)據(jù)增強 67
3.2 基于FastText算法的句子
通順度識別 73
3.2.1 CBOW模型 74
3.2.2 FastText算法原理 75
3.2.3 FastText算法實戰(zhàn) 81
3.3 基于TextCNN算法的分類
任務實現(xiàn) 93
3.3.1 專有名詞簡介 93
3.3.2 算法介紹 94
3.3.3 參數(shù)調優(yōu)經(jīng)驗總結 96
3.3.4 基于Keras工具實現(xiàn)TextCNN算法 96
3.4 基于TextRNN算法的分類
任務實現(xiàn) 98
3.4.1 LSTM和BiLSTM 98
3.4.2 TextCNN和TextRNN
識別效果對比 105
3.5 基于Seq2Seq模型的
糾正策略 106
3.5.1 Seq2Seq模型原理 106
3.5.2 糾正不通順句子的方法 108
3.6 本章小結 114
第4章 內容質量 116
4.1 GBDT算法 116
4.1.1 GBDT算法概述 117
4.1.2 負梯度擬合 117
4.1.3 GBDT回歸算法 118
4.1.4 GBDT分類算法 119
4.2 XGBoost算法 121
4.2.1 從GBDT到XGBoost 121
4.2.2 XGBoost損失函數(shù) 122
4.2.3 XGBoost損失函數(shù)的
優(yōu)化求解 124
4.2.4 XGBoost算法流程 125
4.2.5 XGBoost算法參數(shù)
及調優(yōu) 127
4.3 知識問答質量體系的搭建 129
4.3.1 知識問答質量體系
建立的意義 130
4.3.2 整體的項目實施方案 130
4.3.3 知識問答質量體系
搭建流程 133
4.4 本章小結 142
第5章 標簽體系構建 143
5.1 標簽體系 143
5.1.1 標簽體系的重要性 143
5.1.2 標簽體系的分類 144
5.1.3 構建標簽體系 146
5.2 TF-IDF算法 151
5.2.1 TF-IDF算法介紹 151
5.2.2 TF-IDF算法實現(xiàn) 152
5.3 PageRank算法 155
5.4 TextRank算法 163
5.4.1 TextRank算法的使用
場景 164
5.4.2 TextRank算法的
優(yōu)缺點 168
5.5 本章小結 168
第6章 文本摘要生成 169
6.1 文本摘要相關介紹 169
6.1.1 文本摘要問題定義 169
6.1.2 文本摘要分類 170
6.1.3 文本摘要的技術和方法 170
6.2 基于無監(jiān)督的抽取式文本摘要 172
6.2.1 基于經(jīng)驗的文本摘要 173
6.2.2 基于主題模型的
文本摘要 175
6.2.3 基于圖的文本摘要 182
6.2.4 基于特征評分的
文本摘要 185
6.2.5 基于聚類的文本摘要 188
6.3 基于有監(jiān)督的抽取式文本摘要 191
6.4 基于深度神經(jīng)網(wǎng)絡的生成式
文本摘要 201
6.5 文本摘要常用數(shù)據(jù)集 210
6.6 文本摘要評價方法 211
6.6.1 自動評價方法 211
6.6.2 人工評價方法 213
6.7 本章小結 213
第7章 文本糾錯 214
7.1 錯誤來源及類型 214
7.2 文本糾錯的3種傳統(tǒng)方法 215
7.2.1 模板匹配 215
7.2.2 編輯距離匹配 216
7.2.3 HANSpeller++框架 217
7.3 文本糾錯深度學習方法 220
7.3.1 英文文本糾錯方法 220
7.3.2 中文文本糾錯方法 224
7.4 工業(yè)界解決方法 233
7.4.1 3階段級聯(lián)的糾錯方案 234
7.4.2 符合多種場景的通用
糾錯方案 236
7.4.3 保險文本的糾錯方案 237
7.5 文本糾錯工具 239
7.5.1 pycorrector 239
7.5.2 xmnlp 240
7.6 本章小結 242
基于NLP的內容理解 作者簡介
李明琦 資深AI技術專家,現(xiàn)就職于BAT,擔任高級算法工程師。長期致力于機器學習、深度學習、NLP等技術在實際業(yè)務場景中的落地,在內容理解方面有豐富的經(jīng)驗,主導的內容質量項目曾獲得最佳項目獎。 先后發(fā)表人工智能相關的學術論文2篇,申請人工智能領域的發(fā)明專利5項。在GitHub上貢獻了大量內容質量、問答系統(tǒng)、NLP等方面的代碼,在CSDN撰寫了一些與算法、機器學習、內容理解相關的文章,深受歡迎。 谷 雪 現(xiàn)為葡萄牙米尼奧大學博士生,涉及的研究領域為神經(jīng)架構搜索、自然語言處理、情感分析,博士期間著力于細粒度情感原因提取。先后發(fā)表過學術論文2篇,其中一篇是神經(jīng)架構搜索的綜述,另一篇是基于進化策略的神經(jīng)架構演化方法。在GitHub上貢獻了大量深度學習、機器學習代碼,在CSDN上分享了服務器配置、數(shù)據(jù)分析、圖像去噪、情感分析等方向的多篇文章。 孟子堯 在人工智能技術領域有非常深厚的積累,擅長機器學習和深度學習,尤其是深度學習中的圖像分類和自然語言處理等技術。熱衷于開源的應用和推廣,在GitHub和CSDN上貢獻了許多代碼和文章。在《計算機研究與發(fā)展》上發(fā)表過1篇人工智能相關論文。
- >
【精裝繪本】畫給孩子的中國神話
- >
巴金-再思錄
- >
李白與唐代文化
- >
二體千字文
- >
伊索寓言-世界文學名著典藏-全譯本
- >
山海經(jīng)
- >
莉莉和章魚
- >
月亮虎