1.2节详细介绍了强化学习的数学模型——马尔可夫决策过程,并在此基础上定义了有限马尔可夫链,本节的讨论从马尔可夫链开始。假设一个强化学习任务一局的交互之后得到的马尔可夫链为
以下首先基于马尔可夫链定义3个重要的概念。