《深入淺出強化學習:編程實戰(zhàn)》是《深入淺出強化學習:原理入門》的姊妹篇,寫作的初衷是通過編程實例幫助那些想要學習強化學習算法的讀者更深入、更清楚地理解算法。 本書首先介紹馬爾可夫決策過程的理論框架,然后介紹基于動態(tài)規(guī)劃的策略迭代算法和值迭代算法,在此基礎上分3 篇介紹了目前強化學習算法中最基本的算法。第1 篇講解基于值函數的強化學習算法,介紹了基于兩種策略評估方法(蒙特卡洛策略評估和時間差分策略評估)的強化學習算法,以及如何將函數逼近的方法引入強化學習算法中。第2 篇講解直接策略搜索方法,介紹了基本的策略梯度方法、AC 方法、PPO 方法和DDPG 算法。第3 篇講解基于模型的強化學習方法,介紹了基于MPC 的方法、AlphaZero 算法基本原理及在五子棋上的具體實現(xiàn)細節(jié)。建議讀者根據書中的代碼親自動手編程,并修改程序中的超參數,根據運行結果不斷體會算法原理。