国产第1页_91在线亚洲_中文字幕成人_99久久久久久_五月宗合网_久久久久国产一区二区三区四区

讀書月攻略拿走直接抄!
歡迎光臨中圖網 請 | 注冊
> >
強化學習的數學原理(英文版)

包郵 強化學習的數學原理(英文版)

作者:趙世鈺 著
出版社:清華大學出版社出版時間:2024-07-01
開本: 16開 頁數: 312
中 圖 價:¥87.3(7.4折) 定價  ¥118.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

強化學習的數學原理(英文版) 版權信息

  • ISBN:9787302658528
  • 條形碼:9787302658528 ; 978-7-302-65852-8
  • 裝幀:一般膠版紙
  • 冊數:暫無
  • 重量:暫無
  • 所屬分類:>

強化學習的數學原理(英文版) 本書特色

·從零開始到透徹理解,知其然并知其所以然; ·本書在GitHub收獲2000 星; ·課程視頻全網播放超過80萬; ·國內外讀者反饋口碑爆棚; ·教材、視頻、課件三位一體。

強化學習的數學原理(英文版) 內容簡介

本書從強化學習*基本的概念開始介紹, 將介紹基礎的分析工具, 包括貝爾曼公式和貝爾曼* 優公式, 然后推廣到基于模型的和無模型的強化學習算法, *后推廣到基于函數逼近的強化學習方 法。本書強調從數學的角度引入概念、分析問題、分析算法, 并不強調算法的編程實現。本書不要求 讀者具備任何關于強化學習的知識背景, 僅要求讀者具備一定的概率論和線性代數的知識。如果讀者 已經具備強化學習的學習基礎, 本書可以幫助讀者更深入地理解一些問題并提供新的視角。 本書面向對強化學習感興趣的本科生、研究生、研究人員和企業或研究所的從業者。 

強化學習的數學原理(英文版) 目錄

Overview of this BookChapter 1 Basic Concepts1.1 A grid world example1.2 State and action1.3 State transition1.4 Policy1.5 Reward1.6 Trajectories, returns, and episodes1.7 Markov decision processes1.8 Summary1.9 Q&AChapter 2 State Values and the Bellman Equation2.1 Motivating example 1: Why are returns important?2.2 Motivating example 2: How to calculate returns?2.3 State values2.4 The Bellman equation2.5 Examples for illustrating the Bellman equation2.6 Matrix-vector form of the Bellman equation2.7 Solving state values from the Bellman equation2.7.1 Closed-form solution2.7.2 Iterative solution2.7.3 Illustrative examples2.8 From state value to action value2.8.1 Illustrative examples2.8.2 The Bellman equation in terms of action values2.9 Summary2.10 Q&AChapter 3 Optimal State Values and the Bellman Optimality Equation3.1 Motivating example: How to improve policies?3.2 Optimal state values and optimal policies3.3 The Bellman optimality equation3.3.1 Maximization of the right-hand side of the BOE3.3.2 Matrix-vector form of the BOE3.3.3 Contraction mapping theorem3.3.4 Contraction property of the right-hand side of the BOE3.4 Solving an optimal policy from the BOE3.5 Factors that influence optimal policies3.6 Summary3.7 Q&AChapter 4 Value Iteration and Policy Iteration4.1 Value iteration4.1.1 Elementwise form and implementation4.1.2 Illustrative examples4.2 Policy iteration4.2.1 Algorithm analysis4.2.2 Elementwise form and implementation4.2.3 Illustrative examples4.3 Truncated policy iteration4.3.1 Comparing value iteration and policy iteration4.3.2 Truncated policy iteration algorithm4.4 Summary4.5 Q&AChapter 5 Monte Carlo Methods5.1 Motivating example: Mean estimation5.2 MC Basic: The simplest MC-based algorithm5.2.1 Converting policy iteration to be model-free5.2.2 The MC Basic algorithm5.2.3 Illustrative examples5.3 MC Exploring Starts5.3.1 Utilizing samples more efficiently5.3.2 Updating policies more efficiently5.3.3 Algorithm description5.4 MC ∈-Greedy: Learning without exploring starts5.4.1 ∈-greedy policies5.4.2 Algorithm description5.4.3 Illustrative examples5.5 Exploration and exploitation of ∈-greedy policies5.6 Summary5.7 Q&AChapter 6 Stochastic Approximation6.1 Motivating example: Mean estimation6.2 Robbins-Monro algorithm6.2.1 Convergence properties6.2.2 Application to mean estimation6.3 Dvoretzky's convergence theorem6.3.1 Proof of Dvoretzky's theorem6.3.2 Application to mean estimation6.3.3 Application to the Robbins-Monro theorem6.3.4 An extension of Dvoretzky's theorem6.4 Stochastic gradient descent6.4.1 Application to mean estimation6.4.2 Convergence pattern of SGD6.4.3 A deterministic formulation of SGD6.4.4 BGD, SGD, and mini-batch GD6.4.5 Convergence of SGD6.5 Summary6.6 Q&AChapter 7 Temporal-Difference Methods7.1 TD learning of state values7.1.1 Algorithm description7.1.2 Property analysis7.1.3 Convergence analysis7.2 TD learning of action values: Sarsa7.2.1 Algorithm description7.2.2 Optimal policy learning via Sarsa7.3 TD learning of action values: n-step Sarsa7.4 TD learning of optimal action values: Q-learning7.4.1 Algorithm description7.4.2 Off-policy vs. on-policy7.4.3 Implementation7.4.4 Illustrative examples7.5 A unifed viewpoint7.6 Summary7.7 Q&AChapter 8 Value Function Approximation8.1 Value representation: From table to function8.2 TD learning of state values with function approximation8.2.1 O
展開全部

強化學習的數學原理(英文版) 作者簡介

趙世鈺,西湖大學工學院AI分支特聘研究員,智能無人系統實驗室負責人,國家海外高層次人才引進計劃青年項目獲得者;本碩畢業于北京航空航天大學,博士畢業于新加坡國立大學,曾任英國謝菲爾德大學自動控制與系統工程系Lecturer;致力于研發有趣、有用、有挑戰性的下一代機器人系統,重點關注多機器人系統中的控制、決策與感知等問題。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 草草网站影院白丝内射 | 最近中文字幕完先锋资源 | 在线观看国产成人av天堂 | 国产精品视屏 | 中文字幕欧洲有码无码 | 无码少妇一区二区浪潮免费 | 99精品高清不卡在线观看 | 国产高清精品一区 | 青青艹在线视频 | 亚洲av无码专区在线播放 | 天堂资源中文最新版在线一区 | 午夜理理伦电影a片无码 | 一本一道久久综合狠狠老 | 亚洲看看 | 中文字幕在线免费视频 | 普通话对白国产情侣自啪 | 五月天最新网址 | 久久精品国产只有精品66 | 欧美成人毛片一级在线 | 免费看成人频视在线视频 | 四虎影院入口 | 国产短视频精品区第一页 | 日韩久久免费视频 | 久久婷婷五月综合色一区二区 | 777午夜福利理论电影网 | 黄色精品在线 | 青青青国产手机免费视频 | 美女精品福利视频在线观看 | 超清无码一区二区三区 | 国产精品污www在线观看 | 亚洲av综合a色av中文 | 久久久国产精品免费看 | 欧美成人精品手机在线 | 亚洲精品无码你懂的网站 | 国产精品美女久久久久久 | 狠狠色噜噜狠狠狠狠97影音先锋 | 国产男男做爰免费视频 | 综合国产 | 韩国福利片 | 欧美熟妇色ⅹxxx欧美妇 | 国产精品区免费视频 |