123,123,123

內(nèi)容簡(jiǎn)介

　　《強(qiáng)化學(xué)習(xí)精要：核心算法與TensorFlow 實(shí)現(xiàn)》用通俗幽默的語(yǔ)言深入淺出地介紹了強(qiáng)化學(xué)習(xí)的基本算法與代碼實(shí)現(xiàn)，為讀者構(gòu)建了一個(gè)完整的強(qiáng)化學(xué)習(xí)知識(shí)體系，同時(shí)介紹了這些算法的具體實(shí)現(xiàn)方式。從基本的馬爾可夫決策過(guò)程，到各種復(fù)雜的強(qiáng)化學(xué)習(xí)算法，讀者都可以從本書(shū)中學(xué)習(xí)到。本書(shū)除了介紹這些算法的原理，還深入分析了算法之間的內(nèi)在聯(lián)系，可以幫助讀者舉一反三，掌握算法精髓。書(shū)中介紹的代碼可以幫助讀者快速將算法應(yīng)用到實(shí)踐中。《強(qiáng)化學(xué)習(xí)精要：核心算法與TensorFlow 實(shí)現(xiàn)》內(nèi)容翔實(shí)，語(yǔ)言簡(jiǎn)潔易懂，既適合零基礎(chǔ)的人員入門(mén)學(xué)習(xí)，也適合相關(guān)科研人員研究參考。

作者簡(jiǎn)介

　　馮超，畢業(yè)于中國(guó)科學(xué)院大學(xué)，滴滴出行AI Labs時(shí)空數(shù)據(jù)組專(zhuān)家算法工程師，曾任小猿搜題算法負(fù)責(zé)人之一。自2016年起在知乎開(kāi)設(shè)技術(shù)專(zhuān)欄《無(wú)痛的機(jī)器學(xué)習(xí)》，發(fā)表與深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)相關(guān)的文章，文章以輕松幽默的語(yǔ)言、細(xì)致深入的分析為特點(diǎn)，得到了廣泛的關(guān)注。曾撰寫(xiě)深度學(xué)習(xí)進(jìn)階領(lǐng)域口碑技術(shù)書(shū)《深度學(xué)習(xí)輕松學(xué)：核心算法與視覺(jué)實(shí)踐》。

圖書(shū)目錄

第一部分強(qiáng)化學(xué)習(xí)入門(mén)與基礎(chǔ)知識(shí)
1 引言2
1.1 強(qiáng)化學(xué)習(xí)的概念 2
1.1.1 巴浦洛夫的狗 3
1.1.2 俄羅斯方塊 4
1.2 站在被實(shí)驗(yàn)者的角度看問(wèn)題 5
1.3 強(qiáng)化學(xué)習(xí)效果的評(píng)估 8
1.3.1 不斷試錯(cuò) 8
1.3.2 看重長(zhǎng)期回報(bào) 8
1.4 強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí) 9
1.4.1 強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)的本質(zhì) 9
1.4.2 模仿學(xué)習(xí) 10
1.5 強(qiáng)化學(xué)習(xí)的實(shí)驗(yàn)環(huán)境 11
1.5.1 Arcade Learning Environment 12
1.5.2 Box2D 12
1.5.3 MuJoCo 13
1.5.4 Gym 14
1.6 本書(shū)的主要內(nèi)容 15
1.7 參考資料 16
2 數(shù)學(xué)與機(jī)器學(xué)習(xí)基礎(chǔ)17
2.1 線(xiàn)性代數(shù)基礎(chǔ) 17
2.2 對(duì)稱(chēng)矩陣的性質(zhì) 21
2.2.1 特征值與特征向量 21
2.2.2 對(duì)稱(chēng)矩陣的特征值和特征向量 22
2.2.3 對(duì)稱(chēng)矩陣的對(duì)角化 23
2.3 概率論 24
2.3.1 概率與分布 24
2.3.2 最大似然估計(jì) 27
2.4 重要性采樣 29
2.5 信息論基礎(chǔ) 33
2.6 KL 散度 35
2.7 凸函數(shù)及其性質(zhì) 39
2.8 機(jī)器學(xué)習(xí)的基本概念 41
2.9 機(jī)器學(xué)習(xí)的目標(biāo)函數(shù) 43
2.10 總結(jié) 45
3 優(yōu)化算法47
3.1 梯度下降法 47
3.1.1 什么是梯度下降法 47
3.1.2 優(yōu)雅的步長(zhǎng) 48
3.2 動(dòng)量算法 53
3.3 共軛梯度法 59
3.3.1 精妙的約束 59
3.3.2 共軛 60
3.3.3 優(yōu)化步長(zhǎng)的確定 63
3.3.4 Gram-Schmidt 方法 64
3.3.5 共軛梯度 65
3.4 自然梯度法 69
3.4.1 基本概念 69
3.4.2 Fisher 信息矩陣 71
3.4.3 自然梯度法目標(biāo)公式 76
3.5 總結(jié) 77
4 TensorFlow 入門(mén)78
4.1 TensorFlow 的基本使用方法 78
4.2 TensorFlow 原理介紹 82
4.2.1 創(chuàng)建變量的scope 83
4.2.2 創(chuàng)建一個(gè)Variable 背后的故事 89
4.2.3 運(yùn)算操作 94
4.2.4 tf.gradients 96
4.2.5 Optimizer 102
4.2.6 TensorFlow 的反向傳播技巧 106
4.2.7 arg_scope 的使用 109
4.3 TensorFlow 的分布式訓(xùn)練 113
4.3.1 基于MPI 的數(shù)據(jù)并行模型 114
4.3.2 MPI 的實(shí)現(xiàn)：mpi_adam 121
4.4 基于TensorFlow 實(shí)現(xiàn)經(jīng)典網(wǎng)絡(luò)結(jié)構(gòu) 122
4.4.1 多層感知器 122
4.4.2 卷積神經(jīng)網(wǎng)絡(luò) 124
4.4.3 循環(huán)神經(jīng)網(wǎng)絡(luò) 126
4.5 總結(jié) 129
4.6 參考資料 129
5 Gym 與Baselines 130
5.1 Gym 130
5.1.1 Gym 的安裝 130
5.1.2 Gym 的基本使用方法 132
5.1.3 利用Gym 框架實(shí)現(xiàn)一個(gè)經(jīng)典的棋類(lèi)游戲：蛇棋 134
5.2 Baselines 138
5.2.1 Baselines 中的Python 3 新特性 139
5.2.2 tf_util 141
5.2.3 對(duì)Gym 平臺(tái)的擴(kuò)展 142
5.3 總結(jié) 144
6 強(qiáng)化學(xué)習(xí)基本算法145
6.1 馬爾可夫決策過(guò)程 145
6.1.1 MDP：策略與環(huán)境模型 145
6.1.2 值函數(shù)與Bellman 公式 147
6.1.3 “表格式”Agent 151
6.2 策略迭代 153
6.2.1 策略迭代法 153
6.2.2 策略提升的證明 159
6.2.3 策略迭代的效果展示 160
6.3 價(jià)值迭代 162
6.3.1 N 輪策略迭代 162
6.3.2 從動(dòng)態(tài)規(guī)劃的角度談價(jià)值迭代 165
6.3.3 價(jià)值迭代的實(shí)現(xiàn) 167
6.4 泛化迭代 168
6.4.1 兩個(gè)極端 168
6.4.2 廣義策略迭代法 169
6.4.3 泛化迭代的實(shí)現(xiàn) 170
6.5 總結(jié) 171
第二部分最優(yōu)價(jià)值算法
7 Q-Learning 基礎(chǔ)173
7.1 狀態(tài)轉(zhuǎn)移概率：從掌握到放棄 173
7.2 蒙特卡羅方法 174
7.3 探索與利用 178
7.4 蒙特卡羅的方差問(wèn)題 181
7.5 時(shí)序差分法與SARSA 183
7.6 Q-Learning 186
7.7 Q-Learning 的收斂性分析 189
7.8 從表格形式到價(jià)值模型 193
7.9 Deep Q Network 195
7.10 總結(jié) 202
7.11 參考資料 202
8 DQN 的改進(jìn)算法203
8.1 Double Q-Learning 203
8.2 Priority Replay Buffer 204
8.3 Dueling DQN 209
8.4 解決DQN 的冷啟動(dòng)問(wèn)題 211
8.5 Distributional DQN 214
8.5.1 輸出價(jià)值分布 214
8.5.2 分布的更新 216
8.6 Noisy Network 218
8.7 Rainbow 221
8.7.1 Rainbow 的模型特點(diǎn) 221
8.7.2 Deep Q Network 的實(shí)現(xiàn) 223
8.8 總結(jié) 227
8.9 參考資料 227
第三部分基于策略梯度的算法
9 基于策略梯度的算法229
9.1 策略梯度法 229
9.1.1 算法推導(dǎo) 230
9.1.2 算法分析 233
9.1.3 算法改進(jìn) 234
9.2 Actor-Critic 算法 236
9.2.1 降低算法的方差 236
9.2.2 A3C 算法 238
9.2.3 A2C 算法實(shí)戰(zhàn) 240
9.3 總結(jié) 243
9.4 參考資料 243
10 使策略單調(diào)提升的優(yōu)化算法244
10.1 TRPO 244
10.1.1 策略的差距 245
10.1.2 策略提升的目標(biāo)公式 247
10.1.3 TRPO 的目標(biāo)定義 248
10.1.4 自然梯度法求解 251
10.1.5 TRPO 的實(shí)現(xiàn) 254
10.2 GAE 256
10.2.1 GAE 的公式定義 256
10.2.2 基于GAE 和TRPO 的值函數(shù)優(yōu)化 259
10.2.3 GAE 的實(shí)現(xiàn) 260
10.3 PPO 261
10.3.1 PPO 介紹 261
10.3.2 PPO 算法實(shí)踐 263
10.4 總結(jié) 264
10.5 參考資料 264
11 Off-Policy 策略梯度法265
11.1 Retrace 266
11.1.1 Retrace 的基本概念 266
11.1.2 Retrace 的算法實(shí)現(xiàn) 267
11.2 ACER 270
11.2.1 Off-Policy Actor-Critic 270
11.2.2 ACER 算法 272
11.2.3 ACER 的實(shí)現(xiàn) 276
11.3 DPG 279
11.3.1 連續(xù)空間的策略?xún)?yōu)化 279
11.3.2 策略模型參數(shù)的一致性 280
11.3.3 DDPG 算法 283
11.3.4 DDPG 的實(shí)現(xiàn) 286
11.4 總結(jié) 289
11.5 參考資料 289
第四部分其他強(qiáng)化學(xué)習(xí)算法
12 稀疏回報(bào)的求解方法291
12.1 稀疏回報(bào)的困難 291
12.2 層次強(qiáng)化學(xué)習(xí) 294
12.3 HER 298
12.3.1 漸進(jìn)式學(xué)習(xí) 299
12.3.2 HER 的實(shí)現(xiàn) 301
12.4 總結(jié) 304
12.5 參考資料 304
13 Model-based 方法305
13.1 AlphaZero 305
13.1.1 圍棋游戲 305
13.1.2 Alpha-Beta 樹(shù) 307
13.1.3 MCTS 309
13.1.4 策略?xún)r(jià)值模型 312
13.1.5 模型的對(duì)決 316
13.2 iLQR 316
13.2.1 線(xiàn)性模型的求解法 317
13.2.2 非線(xiàn)性模型的解法 322
13.2.3 iLQR 的實(shí)現(xiàn) 325
13.3 總結(jié) 328
13.4 參考資料 328
第五部分反向強(qiáng)化學(xué)習(xí)
14 反向強(qiáng)化學(xué)習(xí)入門(mén)330
14.1 基本概念 330
14.2 從最優(yōu)策略求解回報(bào) 332
14.2.1 求解回報(bào)的目標(biāo)函數(shù) 332
14.2.2 目標(biāo)函數(shù)的約束 334
14.3 求解線(xiàn)性規(guī)劃 335
14.3.1 線(xiàn)性規(guī)劃的求解過(guò)程 335
14.3.2 實(shí)際案例 337
14.4 無(wú)限狀態(tài)下的求解 338
14.5 從樣本中學(xué)習(xí) 342
14.6 總結(jié) 344
14.7 參考資料 344
15 反向強(qiáng)化學(xué)習(xí)算法2.0 345
15.1 最大熵模型 345
15.1.1 指數(shù)家族 346
15.1.2 最大熵模型的推導(dǎo) 349
15.1.3 最大熵模型的實(shí)現(xiàn) 354
15.2 最大熵反向強(qiáng)化學(xué)習(xí) 356
15.3 GAIL 361
15.3.1 GAN 的基本概念 361
15.3.2 GAN 的訓(xùn)練分析 363
15.4 GAIL 實(shí)現(xiàn) 367
15.5 總結(jié) 370
15.6 參考資料 370