-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰(zhàn)行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優(yōu)實踐之路
-
>
第一行代碼Android
-
>
JAVA持續(xù)交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
人工智能超入門叢書--強化學習:人工智能如何知錯能改 版權信息
- ISBN:9787122452825
- 條形碼:9787122452825 ; 978-7-122-45282-5
- 裝幀:平裝
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>
人工智能超入門叢書--強化學習:人工智能如何知錯能改 本書特色
1.本書以通俗易懂的語言風格講解了強化學習的關鍵核心知識;2.本書涵蓋強化學習多種關鍵算法,如動態(tài)規(guī)劃、馬爾科夫、貝爾曼方程、蒙特卡洛、深度強化學習等;3.本書搭配實例和實現(xiàn)代碼,讀者可以直接上手實操。
人工智能超入門叢書--強化學習:人工智能如何知錯能改 內(nèi)容簡介
“人工智能超入門叢書”致力于面向人工智能各技術方向零基礎的讀者,內(nèi)容涉及數(shù)據(jù)素養(yǎng)、機器學習、視覺感知、情感分析、搜索算法、強化學習、知識圖譜、專家系統(tǒng)等方向。本叢書體系完整、內(nèi)容簡潔、語言通俗,綜合介紹了人工智能相關知識,并輔以程序代碼解決問題,使得零基礎的讀者能夠快速入門。《強化學習:人工智能如何知錯能改》是“人工智能超入門叢書”中的分冊,以科普的形式講解了強化學習的核心知識,內(nèi)容生動有趣,帶領讀者走進強化學習的世界。本書包含強化學習方向的基礎知識,如動態(tài)規(guī)劃、時序差分等,讓讀者在開始學習時對強化學習有初步的認識;之后,通過對馬爾可夫決策過程及貝爾曼方程的解讀,逐漸過渡到強化學習的關鍵內(nèi)容;同時,本書也重點解析了策略迭代與價值迭代兩種核心算法,也對蒙特卡洛方法、時序差分算法、深度強化學習及基于策略的強化學習算法進行了深度剖析。本書內(nèi)容結構完整、邏輯清晰、層層遞進,并配有相關實例與代碼,讓讀者在閱讀學習過程中能夠加深理解。本書適合強化學習及人工智能方向的初學者閱讀學習,也可供高等院校人工智能及計算機類專業(yè)的師生參考。
人工智能超入門叢書--強化學習:人工智能如何知錯能改 目錄
1.1 什么是強化學習 002
1.1.1 初識強化學習 002
1.1.2 強化學習的關鍵要素 005
1.1.3 監(jiān)督、無監(jiān)督與強化學習 007
1.2 三條主線 009
1.2.1 試錯 009
1.2.2 動態(tài)規(guī)劃 011
1.2.3 時序差分 012
1.3 強化學習的方法與應用 014
1.3.1 強強聯(lián)合之深度強化學習 014
1.3.2 強化學習的跨界賦能 017
1.3.3 強化學習的分類 021 第2章 馬爾可夫與貝爾曼方程 024
2.1 “隨機”那些事兒 025
2.1.1 概率的基本概念 025
2.1.2 網(wǎng)格迷宮的探索 031
2.1.3 探索的策略與獎勵 034
2.1.4 探索的足跡 037
2.2 馬爾可夫大家族 040
2.2.1 馬爾可夫過程 040
2.2.2 馬爾可夫獎勵過程 043
2.2.3 馬爾可夫決策過程 044
2.3 貝爾曼方程 046
2.3.1 價值函數(shù)與動作價值函數(shù) 046
2.3.2 貝爾曼方程 050
2.3.3 貝爾曼*優(yōu)方程 052 第3章 動態(tài)規(guī)劃 056
3.1 動態(tài)規(guī)劃基礎與環(huán)境 057
3.1.1 動態(tài)規(guī)劃基礎 057
3.1.2 環(huán)境:冰湖 059
3.2 策略迭代算法 063
3.2.1 原理 063
3.2.2 代碼 067
3.3 價值迭代算法 072
3.3.1 原理 072
3.3.2 代碼 074 第4章 蒙特卡洛 078
4.1 隨機變量的數(shù)字特征 080
4.1.1 期望 080
4.1.2 方差 082
4.2 蒙特卡洛方法與應用 083
4.2.1 圓面積的估計 084
4.2.2 均值估計 087
4.3 蒙特卡洛與強化學習 091
4.3.1 原理 091
4.3.2 環(huán)境:21點 101
4.3.3 代碼 102 第5章 時序差分 107
5.1 時序差分 108
5.1.1 時序差分基礎 108
5.1.2 環(huán)境:懸崖漫步 116
5.2 Sarsa算法 118
5.2.1 原理 118
5.2.2 代碼 120
5.3 Q-Learning算法 124
5.3.1 原理 124
5.3.2 代碼 127 第6章 深度強化學習 134
6.1 DQN入門 135
6.1.1 DQN的基本概念 135
6.1.2 環(huán)境:車桿 139
6.2 BP神經(jīng)網(wǎng)絡 強化學習 141
6.2.1 原理 141
6.2.2 代碼 145
6.3 卷積神經(jīng)網(wǎng)絡 強化學習 157
6.3.1 原理 157
6.3.2 代碼 162
6.4 DQN的改進 167 第7章 策略學習 170
7.1 策略梯度算法 171
7.1.1 策略梯度原理 171
7.1.2 REINFORCE算法 173
7.1.3 代碼 176
7.2 Actor-Critic算法 184
7.2.1 原理 184
7.2.2 環(huán)境:LunarLander 189
7.2.3 代碼 190
7.3 其他基于策略的算法 197 附錄 203
附錄A 環(huán)境設置與行為探索 204
A.1 Gym庫與環(huán)境設置 204
A.2 具有人類偏好的多智能體強化學習 206
附錄B 博弈與策略 209
B.1 什么是博弈 209
B.2 混合策略博弈 212
B.3 序貫博弈 215
B.4 無限博弈與有限博弈 216
附錄C 收益衡量 222
C.1 理性收益:期望價值 223
C.2 效用收益:期望效用 226
C.3 情感收益:前景理論 228
人工智能超入門叢書--強化學習:人工智能如何知錯能改 作者簡介
龔超,工學博士,清華大學日本研究中心主任助理,中日創(chuàng)新中心主任研究員,深圳清華大學研究院下一代互聯(lián)網(wǎng)研發(fā)中心核心成員,海口經(jīng)濟學院雅和人居工程學院客座教授。中國高科技產(chǎn)業(yè)化研究會理事、中國自動化學會普及工作委員會委員、中國人工智能學會中小學工作委員會委員、中國青少年宮協(xié)會特聘專家、未來基因(北京)人工智能研究院首席專家、教育信息化教學應用實踐共同體項目特聘專家,多家500強企業(yè)數(shù)字化轉型領域高級顧問。研究方向為人工智能優(yōu)化算法、人工智能在數(shù)字化轉型中的應用等。著有15本人工智能相關圖書,在國內(nèi)外期刊上發(fā)表文章共計70余篇。 王冀,工學博士,西北工業(yè)大學計算機學院助理教授,研究方向為關鍵數(shù)據(jù)提取及圖像編碼,在本領域優(yōu)秀期刊、會議發(fā)表論文20余篇,參與起草行業(yè)及團體標準2項,出版專著4部。曾獲PCSJ學會WBVC競賽特別獎、圖像信息媒體學會優(yōu)秀發(fā)表獎。 梁霄,中國人民大學附屬中學教師,任信息學競賽教練,本科畢業(yè)于清華大學電子工程系,博士畢業(yè)于清華大學計算機系。截至2024年6月,指導學生許庭強以世界第一的成績獲得2023國際信息學奧林匹克競賽金牌,指導學生黃洛天以總分第一名獲得2023年APIO國際金牌,指導6人次獲得NOI金牌(全部為國家集訓隊)。此外還開設了多門人工智能相關課程,致力于探索計算機科學的中小學教育。 貴寧,本科畢業(yè)于清華大學自動化系,目前在清華大學深圳研究生院智能機器人實驗室攻讀碩士學位。研究方向集中于魯棒強化學習及其在機器人領域的應用。在碩士學習期間,專注于強化學習與大模型在機器人技術上的實際應用,積累了豐富的經(jīng)驗。
- >
伊索寓言-世界文學名著典藏-全譯本
- >
企鵝口袋書系列·偉大的思想20:論自然選擇(英漢雙語)
- >
推拿
- >
回憶愛瑪儂
- >
新文學天穹兩巨星--魯迅與胡適/紅燭學術叢書(紅燭學術叢書)
- >
史學評論
- >
煙與鏡
- >
中國歷史的瞬間