在本章中,着重深入介绍了第1章中粗略介绍的一些强化学习的基础名词和概念。同时,通过使用一些简单的例子,希望能够帮助读者深入理解强化学习中一些基础的做法,比如,如何估计状态价值函数,如何对状态价值函数进行迭代,从而让该函数收敛,以及如何进行策略迭代和价值迭代,以获取最优的状态价值函数和最优的策略。
由于本章涉及比较多的数学知识,读者可以以本章作为参考,在需要的时候查阅对应的内容,这有助于读者更好地理解后续的一系列算法。