-
>
闖進數學世界――探秘歷史名題
-
>
中醫基礎理論
-
>
當代中國政府與政治(新編21世紀公共管理系列教材)
-
>
高校軍事課教程
-
>
思想道德與法治(2021年版)
-
>
毛澤東思想和中國特色社會主義理論體系概論(2021年版)
-
>
中醫內科學·全國中醫藥行業高等教育“十四五”規劃教材
強化學習(微課版) 版權信息
- ISBN:9787302587941
- 條形碼:9787302587941 ; 978-7-302-58794-1
- 裝幀:70g膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>>
強化學習(微課版) 本書特色
本書是強化學習領域的入門書籍。本書結合大量清晰易懂的實際用用案例,能夠幫助讀者更好地理解強化學習各個算法的實現原理,降低了強化學習入學門檻。書中架構安排合理,語言表達準確,推理證明齊全。 本書可作為強化學習技術的基礎入門教材,提供公式推導過程及算法實現代碼。有教學課件、教學大綱、教學計劃、教學視頻、源代碼本書可作為強化學習技術的基礎入門教材,提供公式推導過程及算法實現代碼。
強化學習(微課版) 內容簡介
本書構建了一個完整的強化學習入門路徑,深入淺出地介紹了強化學習算法的基本原理和實現方法。本書 首先回顧了相關預備知識,包括數學基礎和機器學習基礎,然后先介紹強化學習的基本概念,給出強化學習的 數學框架(馬爾可夫決策過程),隨后介紹強化學習的求解算法,包括表格求解法(動態規劃法、蒙特卡洛法 和時序差分法),以及近似求解法(值函數近似法、策略梯度法和深度強化學習)。本書很后一部分為實踐與前 沿,實踐部分基于一個相同的例子實現了強化學習領域的主流基礎算法,前沿部分介紹了強化學習領域的** 研究進展。本書配有相當數量的習題供練習,配套代碼基于 Python 實現,源代碼均已開源,可開放獲取。 本書可作為理工科本科生、研究生的“強化學習”課程的教材,也可作為相關從業者掌握強化學習的入門 參考書。
強化學習(微課版) 目錄
第1章 導論
1.1 強化學習簡介
1.1.1 兩個主要特征
1.1.2 與機器學習的關系
1.2 強化學習發展史
1.2.1 試錯學習
1.2.2 *優控制
1.2.3 時序差分學習
1.2.4 深度強化學習
1.3 本書的主要內容
1.4 本章小結
II 預備知識
第2章 概率統計與隨機過程
2.1 概率論
2.1.1 集合
2.1.2 概率
2.1.3 隨機試驗與隨機事件
2.1.4 條件概率與獨立事件
2.1.5 隨機變量
2.1.6 期望與方差
2.1.7 概率分布
2.2 統計學基礎
2.2.1 大數定律
2.2.2 中心極限定理
2.3 隨機過程
2.3.1 基本概念
2.3.2 分布函數
2.3.3 基本類型
2.3.4 馬爾可夫過程
2.3.5 馬爾可夫鏈的狀態分類
2.3.6 平穩分布
2.4 本章小結
第3章 機器學習
3.1 基本概念
3.2 線性回歸
3.3 邏輯回歸
3.3.1 邏輯回歸模型
3.3.2 邏輯回歸指標
3.3.3 邏輯回歸算法
3.4 隨機梯度下降
3.4.1 隨機梯度下降法
3.4.2 基于SGD實現邏輯回歸
3.5 本章小結
第4章 神經網絡
4.1 神經元
4.2 感知機
4.2.1 感知機模型
4.2.2 感知機指標
4.2.3 感知機算法
4.3 神經網絡
4.3.1 神經網絡模型
4.3.2 神經網絡指標
4.3.3 神經網絡算法
4.3.4 梯度消失現象
4.4 本章小結
第5章 深度學習
……
III 強化學習基礎
IV 表格求解法
V 近似求解法
VI 實踐與前沿
VII 附錄
強化學習(微課版) 作者簡介
袁莎,清華大學計算機系博士后,合作導師為唐杰教授,主持一項國家自然科學基金青年基金項目和一項博士后科學基金面上項目。唐杰 IEEE Fellow,清華大學計算機系教授、系副主任,獲國家杰出青年科學基金、王選杰青獎。研究人工智能、認知圖譜、數據挖掘、社交網絡和機器學習。發表論文300余篇,獲ACM SIGKDD Test-of-Time Award(十年最佳論文)。主持研發了超大規模預訓練模型“悟道”,參數規模超過1.75萬億。之前還研發了研究者社會網絡挖掘系統AMiner,吸引全球220個國家/地區2000多萬用戶。擔任國際期刊IEEE T. on Big Data、AI OPEN主編以及WWW’23大會主席。獲國家科技進步二等獎、北京市科技進步一等獎、北京市專利獎一等獎、人工智能學會科技進步一等獎、KDD杰出貢獻獎。
- >
羅庸西南聯大授課錄
- >
小考拉的故事-套裝共3冊
- >
巴金-再思錄
- >
【精裝繪本】畫給孩子的中國神話
- >
詩經-先民的歌唱
- >
企鵝口袋書系列·偉大的思想20:論自然選擇(英漢雙語)
- >
伊索寓言-世界文學名著典藏-全譯本
- >
史學評論