深度强化学习理论与实践
上QQ阅读APP看书,第一时间看更新

2.2 值函数和贝尔曼方程

1.2节详细介绍了强化学习的数学模型——马尔可夫决策过程,并在此基础上定义了有限马尔可夫链,本节的讨论从马尔可夫链开始。假设一个强化学习任务一局的交互之后得到的马尔可夫链为

以下首先基于马尔可夫链定义3个重要的概念。