国产第1页_91在线亚洲_中文字幕成人_99久久久久久_五月宗合网_久久久久国产一区二区三区四区

讀書月攻略拿走直接抄!
歡迎光臨中圖網 請 | 注冊
> >
強化學習入門——基于Python(基于Python的數據分析叢書)

包郵 強化學習入門——基于Python(基于Python的數據分析叢書)

出版社:中國人民大學出版社出版時間:2023-03-01
開本: 其他 頁數: 192
中 圖 價:¥31.9(6.5折) 定價  ¥49.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

強化學習入門——基于Python(基于Python的數據分析叢書) 版權信息

強化學習入門——基于Python(基于Python的數據分析叢書) 內容簡介

強化學習是機器學習的重要組成部分。本書采用理論與實踐相結合的寫法,從強化學習的基本概念開始,詳細介紹了強化學習的算法理論和實踐操作,配有Python代碼實現(xiàn),完整呈現(xiàn)強化學習算法的實踐細節(jié)。通過這本書你將會:
(1)理解強化學習*關鍵方面的問題。
(2)探索馬爾可夫決策過程及動態(tài)規(guī)劃的過程。
(3)深入理解強化學習的各種方法,包括MC方法,TD方法,深度學習Q方法,SARSA方法等。
(4)通過大量的現(xiàn)實例子及Python實現(xiàn)程序,不斷地實踐,成為強化學習的高手。

強化學習入門——基于Python(基于Python的數據分析叢書) 目錄

**部分 強化學習基礎與實踐
第1章引 言
1.1 從迷宮問題談起
1.1.1 人類和動物所面對的迷宮問題
1.1.2 迷宮的說明性例子
1.1.3 例1.1: 獎勵矩陣
1.1.4 例1.1: 訓練以得到關于狀態(tài)和行動的獎勵: Q矩陣
1.1.5 例1.1: 使用Q矩陣來得到*優(yōu)行動(路徑)
1.1.6 例1.1: 把代碼組合成 class
1.2 熱身: 井字游戲*
1.2.1 兩個真人的簡單井字游戲
1.2.2 人和機器的井字游戲的強化學習實踐
1.2.3 井字游戲的強化學習代碼解釋
1.2.4 整個訓練過程
1.2.5 使用訓練后的模型做人機游戲
1.2.6 1.2.1節(jié)代碼
1.2.7 附錄: 1.2.3節(jié)人和機器的井字游戲代碼
1.3 強化學習的基本概念
1.4 馬爾可夫決策過程的要素
1.5 作為目標的獎勵
1.6 探索與開發(fā)的權衡
1.6.1 探索與開發(fā)
1.6.2 強化學習中的優(yōu)化和其他學科的區(qū)別
1.7 本書將會討論和運算的一些例子
1.7.1 例1.3格子路徑問題
1.7.2 例1.4出租車問題
1.7.3 例1.5推車桿問題
1.7.4 例1.6倒立擺問題
1.7.5 例1.7多臂老虎機問題
1.7.6 例1.7和其他例子(例1.3、例1.5及例1.6)的區(qū)別
第2章馬爾可夫決策過程和動態(tài)規(guī)劃
2.1 馬爾可夫決策過程簡介
2.1.1 馬爾可夫性
2.1.2 策略
2.1.3 作為回報期望的價值函數
2.1.4 通過例 1.3 格子路徑問題理解本節(jié)概念
2.2 動態(tài)規(guī)劃
2.2.1 動態(tài)規(guī)劃簡介
2.2.2 Bellman方程
2.2.3 *優(yōu)策略和*優(yōu)價值函數
2.3 強化學習基本方法概述
2.3.1 代理與環(huán)境的互動
2.3.2 策略迭代: 策略評估和策略改進
2.3.3 價值迭代
2.3.4 策略迭代與價值迭代比較
2.3.5 異步動態(tài)規(guī)劃
2.3.6 廣義策略迭代
2.3.7 策略梯度
2.3.8 off-policy, on-policy和offline RL
2.4 蒙特卡羅抽樣
2.4.1 MC策略評估
2.4.2 MC狀態(tài)-行動值的估計
2.4.3 on-policy: Q價值的MC估計
2.4.4 off-policy: MC預測
2.4.5 MC的策略梯度
2.5 和本章概念相關的例子
2.5.1 例1.3格子路徑問題使用Bellman方程做價值迭代
2.5.2 例1.3格子路徑問題的TD函數
第3章各種機器學習算法及實例
3.1 暫時差(TD)簡介
3.1.1 TD、DP和MC算法的比較
3.1.2 TD方法的特點
3.1.3 TD(0)方法的延伸
3.2 TD評估及策略改進
3.2.1 SARSA (on-policy)
3.2.2 Q學習 (off-policy)
3.2.3 加倍Q學習 (off-policy)
3.3 函數逼近及深度學習算法
3.3.1 基于價值和策略的函數逼近
3.3.2 深度Q學習
3.3.3 TD: 演員-批評者(AC)架構
3.3.4 A2C算法步驟
3.3.5 A3C 算法
3.3.6 DDPG 算法
3.3.7 ES 算法
3.3.8 PPO 算法
3.3.9 SAC 算法
3.4 用第1章的例子理解本章算法
3.4.1 例1.3格子路徑問題: SARSA
3.4.2 例1.4出租車問題: SARSA
3.4.3 例1.3格子路徑問題: 加倍Q學
3.4.4 例1.5推車桿問題: 深度Q學習
3.4.5 例1.5推車桿問題: A3C
3.4.6 例1.6倒立擺問題: DDPG
3.4.7 例1.5推車桿問題: ES
3.4.8 例1.5推車桿問題: PPO-Clip
3.4.9 例1.6 倒立擺問題: SAC
第二部分: 軟件及一些數學知識

第4章 Python基礎
4.1 引言
4.2 安裝
4.2.1 安裝及開始體驗
4.2.2 運行Notebook
4.3 基本模塊的編程
4.4 Numpy模塊
4.5 Pandas模塊
4.6 Matplotlib模塊
4.7 Python 的類――面向對象編程簡介
4.7.1 類的基本結構
4.7.2 計算*小二乘回歸的例子
4.7.3 子類
第5章 PyTorch與深度學習
5.1 作為機器學習一部分的深度學習
5.2 PyTorch 簡介
5.3 神經網絡簡介
5.3.1 神經網絡概述
5.3.2 梯度下降法
5.3.3 深度神經網絡的PyTorch表示
5.4 深度學習的步驟
5.4.1 定義神經網絡
5.4.2 轉換數據成訓練需要的格式
5.4.3 訓練并評估結果
第6章 回顧一些數學知識*
6.1 條件概率和條件期望
6.2 范數和收縮
6.3 線性代數
6.3.1 特征值和特征向量
6.3.2 隨機矩陣
6.4 馬爾可夫決策過程
6.4.1 馬爾可夫鏈和馬爾可夫決策過程
6.4.2 策略
6.4.3 關于時間視界的優(yōu)化
6.5 Bellman 方程
6.5.1 有折扣無限視界問題的Bellman問題
6.5.2 無折扣無限視界問題的Bellman問題
6.6 動態(tài)規(guī)劃
6.6.1 價值迭代
6.6.2 策略迭代
展開全部
商品評論(0條)
暫無評論……
書友推薦
本類暢銷
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 成人免费视频国产 | 日本mature乱子视频 | 男人桶美女 | 久久久久综合精品福利啪啪 | 色婷婷色99国产综合精品 | 少妇极品熟妇人妻 | 成人不卡 | 精品+无码+在线观看 | 毛片1级 | 亚州少妇无套内射激情视频 | 婷婷五月综合激情 | 国产黄网在线 | 亚洲色婷婷久久精品av蜜桃 | 久久精品一区二区三区四区 | 色爱综合区 | 亚洲4区| 99这里只有精品 | 免费看片日本 | 国产午夜成人久久无码一区二区 | 午夜欧美精品久久久久久久 | 日本三级电影免费看 | 日韩欧美中文字幕公布 | 午夜视频在线看 | 久久国产精品1区2区3区网页 | 18禁亚洲深夜福利入口 | 天天爽夜夜爽夜夜爽精品视频 | 国精产品一区一区三区有限公司杨 | 亚洲一久久久久久久久 | 性强烈的欧美三级视频 | 久久久久久99精品 | 国产精品久久久久免费 | 亚洲精品久久区二区三区蜜桃臀 | 青青青青青青青青在线观看 | 国产一区国产二区国产三区 | 亚洲国产美女精品久久 | 免费一级特黄特色大片在线观看看 | 亚洲影库 | 久久精品国产精品亚洲综合 | 成人亚洲欧美日韩在线观看 | 国产人成 | 人妻少妇精品视中文字幕国语 |