-
>
闖進數學世界――探秘歷史名題
-
>
中醫基礎理論
-
>
當代中國政府與政治(新編21世紀公共管理系列教材)
-
>
高校軍事課教程
-
>
思想道德與法治(2021年版)
-
>
毛澤東思想和中國特色社會主義理論體系概論(2021年版)
-
>
中醫內科學·全國中醫藥行業高等教育“十四五”規劃教材
文本大數據分析方法及應用 —— 基于主題模型和機器學習理論 版權信息
- ISBN:9787111769811
- 條形碼:9787111769811 ; 978-7-111-76981-1
- 裝幀:平裝-膠訂
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
文本大數據分析方法及應用 —— 基于主題模型和機器學習理論 本書特色
本書系統介紹文本數據的分析方法,對于數據科學的專業人士學習交流具有重要的意義和價值。
本書選題來源于人文社會科學重點研究基地重大項目 “數字時代的統 計學理論與方法研究”(22JJD110001)。該項目的一個研究內容是動態文本大數 據的理論與應用研究。
文本大數據分析方法及應用 —— 基于主題模型和機器學習理論 內容簡介
本書基于作者多年來對于文本大數據的研究成果創作完成,主要分 為兩部分內容。**部分包括前 5 章,基于主題模型,首先介紹了基礎 的主題模型及其推斷、評價方法,然后介紹了多語料聯合、動態稀疏等 多角度的主題模型,以及主題模型的變點檢測方法。第二部分包括后 3 章,基于機器學習和深度學習模型,包括文本分層分類模型、異質圖新 聞推薦模型以及基于多層級信息的多模態屬性級情感分析模型。書中每 種方法均配有實際分析案例。本書對文本分析方法的理論研究和實踐應 用有重要參考價值,可作為大學相關專業高年級本科生或研究生的入門教材,也可作為從事相關技術研發的開發人員的參考書。
文本大數據分析方法及應用 —— 基于主題模型和機器學習理論文本大數據分析方法及應用 —— 基于主題模型和機器學習理論 前言
當今各種生產、交易和生活場景正在發生全面數字化轉型,經濟社會系統正 在加速邁向數字時代。在智能、數字、網絡三大要素的驅動下的數字技術將引領 未來戰略性科技發展趨勢。在數字時代的大背景下,數字技術為統計學科提供了 廣泛而豐富的分析素材,同時也對統計測量、統計理論、統計算法提出了新的挑 戰。在數字時代中,數據科學是關鍵。數據科學帶動多學科融合,其基礎理論研 究的重要性日益凸顯。統計學作為數據科學的核心方法論,其理論與方法的進展 將對我國數據科學以及數據技術的整體實力提升有著極其重要的意義。文本數據 是一種重要的數據類型,對文本數據的充分分析,必將為社會生產生活帶來重大 效益。本書系統介紹文本數據的分析方法,對于數據科學的專業人士學習交流具 有重要的意義和價值。 本書選題來源于人文社會科學重點研究基地重大項目 “數字時代的統 計學理論與方法研究”(22JJD110001)。該項目的一個研究內容是動態文本大數 據的理論與應用研究。本書在整理該項目研究成果以及作者與合作者多年來對于 文本大數據的研究成果的基礎上創作完成,主要分為兩部分內容。 第 1 部分(前 5 章)基于主題模型,第 1 章介紹了基礎的主題模型及其推斷、 評價方法。第 2 章介紹多語料聯合主題模型,尋找多語料的共有主題以及各語料 的特有主題,并應用到品牌競爭商業數據分析中。第 3 章介紹動態稀疏主題模型, 在動態主題模型的基礎上,實現了主題稀疏,并應用學術期刊、研究生論文集數 據來分析學術熱點轉變。第 4 章介紹動態稀疏聯合主題模型,實現多文檔聯動建 模,并應用到學術會議與期刊語料的影響研究。第 5 章介紹混合貝葉斯變點檢測 模型,研究文本主題隨時間的變化,并應用到商品評論等多個數據的分析中。 第 2 部分(后 3 章)基于機器學習和深度學習模型,第 6 章介紹文本分層分 類模型,應用到團購商品標簽分類、新聞數據分類等問題的研究中。第 7 章介紹 異質圖新聞推薦模型,應用到 MIND small 新聞數據集。第 8 章介紹基于多層級 信息的多模態屬性級情感分析模型,應用到 MASAD 數據集。本書作者感謝合作者以及所帶研究生長期以來的合作和付出,他們是王菲菲、 趙俊龍、王小寧、范一葦、郭昱璇、邢晨、周睿、吳昆、朱彥頔、馮藝超、林中潭、 周濤等。由于本書作者時間、能力有限,對于書中不足之處,敬請讀者不吝賜教。
文本大數據分析方法及應用 —— 基于主題模型和機器學習理論 目錄
前言
第 1 章 主題模型簡介 1
1.1 基本概念與符號 2
1.2 基礎主題模型 3
1.2.1 LDA 模型 3
1.2.2 DTM 模型 5
1.3 參數推斷方法 6
1.3.1 變分貝葉斯 6
1.3.2 Gibbs 抽樣 11
1.4 評價指標 14
1.4.1 評價模型的泛化
能力 14
1.4.2 評價主題內部的
一致性 15
1.4.3 評價不同主題間的
相似性 16
1.5 實例應用 16
1.6 模型拓展 18
1.6.1 短文本建模 19
1.6.2 有監督模型 20
1.6.3 詞向量主題模型 21
參考文獻 21
附錄:Dirichlet-Multinomial
共軛結構 22
第 2 章 多語料聯合主題模型 24
2.1 基本概念與符號 25
2.2 多語料聯合主題模型 26
2.2.1 模型生成過程 26
2.2.2 *大熵模型 28
2.3 參數推斷方法 29
2.3.1 模型推斷 29
2.3.2 超參確定 31
2.4 實例應用 32
2.4.1 護膚品數據集 32
2.4.2 連鎖日本餐廳
數據集 36
2.5 討論 42
參考文獻 42
第 3 章 動態稀疏主題模型 43
3.1 基本概念與符號 44
3.2 動態稀疏主題模型 45
3.2.1 模型介紹 45
3.2.2 模型生成過程 46
3.3 參數推斷方法 47
3.3.1 零階坍塌變分貝葉
斯推斷算法 48
3.3.2 參數估計 49
3.3.3 推斷算法 51
3.4 實例應用 52
3.4.1 JASA 數據集 52
3.4.2 研究生論文語
料庫 55
3.5 討論 58
參考文獻 59
第 4 章 動態稀疏聯合主題
模型 61
4.1 基本概念與符號 62
4.2 動態稀疏聯合主題模型 63
4.3 參數推斷方法 66
4.3.1 變分貝葉斯 EM
算法 67
4.3.2 變分卡爾曼濾波
算法 70
4.3.3 推斷算法 71
4.4 實例應用 72
4.5 討論 78
參考文獻 78
第 5 章 混合貝葉斯變點檢測
模型 80
5.1 基本概念與符號 81
5.2 混合貝葉斯變點檢測
模型 82
5.3 參數推斷方法 84
5.4 實例應用 87
5.4.1 亞馬遜評論數
據集 87
5.4.2 期刊數據集 90
5.4.3 聯合國數據集 93
5.5 討論 96
參考文獻 96
第 6 章 文本分層分類模型 98
6.1 基本概念與符號 99
6.2 文本分層分類模型 100
6.2.1 H.S. 性質 100
6.2.2 分層結構中節點間的
不相似度 103
6.2.3 基于角的分層分
類器 105
6.3 模型求解算法 109
6.3.1 標簽嵌入法 109
6.3.2 線性損失 115
6.4 實例應用 116
6.4.1 評價指標 116
6.4.2 實證分析 118
6.5 討論 122
參考文獻 122
第 7 章 異質圖新聞推薦模型 124
7.1 基本概念與符號 125
7.2 異質圖新聞推薦模型 126
7.2.1 準備知識 126
7.2.2 模型簡介 126
7.2.3 節點特征準備 127
7.2.4 異質鄰居采樣 129
7.2.5 信息聚合與
預測 129
7.3 實例應用 133
7.3.1 數據集與對比
模型 133
7.3.2 實驗結果 134
7.4 討論 137
參考文獻 137
第 8 章 基于多層級信息的多模態
屬性級情感分析模型 139
8.1 基本概念與符號 140
8.2 基于多層級信息的多模態
屬性級情感分析模型 141
8.2.1 基礎模型 141
8.2.2 多模態聯合模型 142
8.3 實例應用 150
8.3.1 數據集介紹 150
8.3.2 評估指標 152
8.3.3 基線模型 153
8.3.4 實驗結果 153
8.4 討論 157
參考文獻 158
- >
人文閱讀與收藏·良友文學叢書:一天的工作
- >
姑媽的寶刀
- >
二體千字文
- >
伯納黛特,你要去哪(2021新版)
- >
龍榆生:詞曲概論/大家小書
- >
詩經-先民的歌唱
- >
我從未如此眷戀人間
- >
中國人在烏蘇里邊疆區:歷史與人類學概述