-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應(yīng)用
-
>
決戰(zhàn)行測5000題(言語理解與表達(dá))
-
>
軟件性能測試.分析與調(diào)優(yōu)實踐之路
-
>
第一行代碼Android
-
>
JAVA持續(xù)交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學(xué)習(xí)
2015-2016-區(qū)域經(jīng)濟(jì)與城市發(fā)展研究報告-服務(wù)地方的路徑與策略研究
合肥區(qū)域經(jīng)濟(jì)與城市發(fā)展研究院,安徽大學(xué)區(qū)¥36.3¥98.0
大數(shù)據(jù)搜索與挖掘 版權(quán)信息
- ISBN:9787030403186
- 條形碼:9787030403186 ; 978-7-03-040318-6
- 裝幀:一般膠版紙
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>
大數(shù)據(jù)搜索與挖掘 本書特色
《大數(shù)據(jù)搜索與挖掘》以作者張華平、高凱、黃河燕、趙燕平團(tuán)隊十余年在大數(shù)據(jù)搜索與挖掘領(lǐng)域所作的研究與應(yīng)用工作為內(nèi)容,介紹大數(shù)據(jù)搜索與挖掘的研發(fā)成果,內(nèi)容涵蓋大數(shù)據(jù)處理概論、中文自然語言處理、網(wǎng)絡(luò)信息預(yù)處理、網(wǎng)絡(luò)情報挖掘(包括網(wǎng)絡(luò)語言分析、新特征語言抽取、漢語詞法分析、文本自動分類、自動聚類、自動摘要、關(guān)鍵詞抽取)、網(wǎng)絡(luò)精準(zhǔn)搜索(信息檢索模型、句子搜索)、人物搜索等方面的研究成果。從大數(shù)據(jù)這座金礦中挖掘有價值的信息,是本書的目的所在。全書體系完整,內(nèi)容新穎,條理清晰,組織合理,理論與實踐并重,突出原創(chuàng)的研究成果與實際應(yīng)用。 《大數(shù)據(jù)搜索與挖掘》可為高校計算機專業(yè)、計算機語言學(xué)專業(yè)和人工智能專業(yè)等師生的教學(xué)和科研工作提供幫助,也可為從事大數(shù)據(jù)搜索與挖掘、中文自然語言處理、信息檢索與搜索引擎技術(shù)研發(fā)的工程技術(shù)人員和希望了解上述技術(shù)的愛好者等提供參考。
大數(shù)據(jù)搜索與挖掘 內(nèi)容簡介
主要以作者十余年在工業(yè)控制網(wǎng)搜索與挖掘領(lǐng)域所作的研究與應(yīng)用工作為內(nèi)容,全面介紹我們在工業(yè)控制網(wǎng)信息預(yù)處理、挖掘(包括:工業(yè)控制網(wǎng)絡(luò)分析、新特征抽取、分類等)、搜索等方面的研究成果,并介紹在工業(yè)網(wǎng),包括中國郵政、中國證監(jiān)會、四維圖新等單位的實際應(yīng)用案例。專著突出自己的研究成果為主,理論與實踐并重,強調(diào)技術(shù)工程實現(xiàn)與實際應(yīng)用。
大數(shù)據(jù)搜索與挖掘 目錄
序
前言
第1章 緒論
1.1 大數(shù)據(jù)
1.2 云計算及hadoop簡介
1.3 web搜索、全文索引與lucene簡介
1.3.1 web搜索
1.3.2 全文索引
1.3.3 lucene簡介
1.4 大數(shù)據(jù)挖掘
1.5 本書主要內(nèi)容及其知識點
1.6 本章小結(jié)
參考文獻(xiàn)
第2章 大數(shù)據(jù)搜索挖掘綜述
2.1 常用的信息檢索模型
2.1.1 傳統(tǒng)布爾檢索與擴(kuò)展布爾檢索模型
2.1.2 向量空間模型
2.1.3 概率檢索模型
2.1.4 語言模型
2.2 自然語言理解與處理概述
2.3 中文詞法分析中的分詞處理
2.3.1 基于詞典和規(guī)則的漢字分詞
2.3.2 基于大規(guī)模語料庫的統(tǒng)計學(xué)習(xí)的分詞方法
2.3.3 規(guī)則和統(tǒng)計方法相結(jié)合的漢字分詞方法
2.4 未登錄詞及其識別
2.4.1 命名實體及其識別
2.4.2 未登錄詞與新詞識別
2.5 有意義串及其識別
2.6 詞典組織與管理
2.6.1 基于trie索引樹的詞典管理
2.6.2 基于哈希表的詞典管理
2.7 文本分類
2.8 文本聚類
2.8.1 文本表示
2.8.2 相似度度量
2.8.3 聚類算法體系
2.9 話題識別與跟蹤
2.10 句子及其檢索
2.10.1 傳統(tǒng)的文檔檢索方法
2.10.2 信息過濾方法
2.10.3 分類方法
2.10.4 語義比較方法
2.10.5 隱馬爾可夫模型方法
2.10.6 自動文摘方法
2.11 句子級新信息檢測
2.11.1 詞重疊度
2.11.2 *大區(qū)間相關(guān)度
2.11.3 余弦冗余度
2.11.4 命名實體觸發(fā)方法
2.11.5 統(tǒng)計機器翻譯模型
2.11.6 lexrank方法
2.12 本章小結(jié)
參考文獻(xiàn)
第3章 大數(shù)據(jù)檢索與分詞
3.1 概述
3.2 分詞對中文信息檢索的影響
3.3 分詞精度與檢索性能的關(guān)系
3.4 大數(shù)據(jù)應(yīng)用環(huán)境下中文信息檢索的分詞算法及其特點
3.4.1 分詞算法的時間性能要求高
……
第4章 基于層次隱馬爾可夫模型的淺層詞法分析
第5章 大數(shù)據(jù)語言新特征發(fā)現(xiàn)
第7章 大數(shù)據(jù)文本自動摘要
第8章 jzsearch大數(shù)據(jù)精準(zhǔn)搜索引擎
第9章 面向大數(shù)據(jù)的句子檢索與新穎性監(jiān)測
第10章 人物追蹤中的數(shù)據(jù)預(yù)處理與屬性抽取
第11章 人物模型組織與基于事件的信息處理
附錄a ictclas/nlpir 2014漢語分詞系統(tǒng)介紹
附錄b nlpir大數(shù)據(jù)搜索與挖掘共享開發(fā)平臺
大數(shù)據(jù)搜索與挖掘 作者簡介
張華平,1978年出生。工學(xué)博士,北京理工大學(xué)副教授。畢業(yè)于中國科學(xué)院計算技術(shù)研究所。漢語詞法分析系統(tǒng)ICTCLAS創(chuàng)始人,ICTCLAS在國家973評測和第一屆國際漢語分詞大賽中綜合得分均獲得第1名。主要從事大數(shù)據(jù)搜索與挖掘、自然語言處理、信息檢索等方面的研究工作,主持或參與國家自然科學(xué)基金、863、973、242等十余項課題。曾先后獲得2010年度錢偉長中文信息處理科學(xué)技術(shù)獎一等獎,中國科學(xué)院院長優(yōu)秀獎、中國科學(xué)院計算技術(shù)研究所所長特別獎,是中國科學(xué)院計算技術(shù)研究所“百星計劃”首批入選者。高凱,1968年出生。工學(xué)博士。畢業(yè)于上海交通大學(xué)計算機應(yīng)用技術(shù)專業(yè),河北省重點學(xué)科“計算機軟件與理論”中“信息檢索與云計算”方向?qū)W術(shù)帶頭人。主要從事大數(shù)據(jù)搜索與挖掘、自然語言處理、網(wǎng)絡(luò)信息檢索、社會網(wǎng)絡(luò)計算等領(lǐng)域的研究工作。黃河燕,1963年出生。工學(xué)博士,教授、博士生導(dǎo)師,現(xiàn)任北京理工大學(xué)計算機學(xué)院院長、國家高技術(shù)研究發(fā)展計劃(863計劃)主題專家組成員、教育部計算機專業(yè)指導(dǎo)委員會委員、中國人工智能學(xué)會副理事長、中國中文信息學(xué)會副理事長兼自然語言處理專業(yè)委員會主任。主要從事自然語言處理和機器翻譯、智能處理系統(tǒng)等領(lǐng)域的研究,承擔(dān)了近20項國家級科研攻關(guān)項目和大型工程應(yīng)用,以及國際合作項目,獲得國家科學(xué)技術(shù)進(jìn)步獎一等獎、國家經(jīng)濟(jì)貿(mào)易委員會九五技術(shù)創(chuàng)新優(yōu)秀項目獎、中央國家機關(guān)十大杰出青年等榮譽和獎勵。趙燕平,1956年出生。北京理工大學(xué)教授,國家人力資源和社會保障部職業(yè)技能鑒定中心電子商務(wù)專業(yè)委員會專家,中國電子學(xué)會健康物聯(lián)專委會專家。北京理工大學(xué)大數(shù)據(jù)搜索與挖掘?qū)嶒炇腋敝魅,曾任?lián)合國開發(fā)計劃署(UNDP)“中國可持續(xù)發(fā)展網(wǎng)絡(luò)計劃”項目專家。主持參與了多個科研和工程項目。
- >
有舍有得是人生
- >
羅曼·羅蘭讀書隨筆-精裝
- >
龍榆生:詞曲概論/大家小書
- >
經(jīng)典常談
- >
月亮虎
- >
朝聞道
- >
史學(xué)評論
- >
月亮與六便士