上QQ阅读APP看书,第一时间看更新
2.3 最优策略
至此,强化学习的基本理论介绍完毕,接下来对强化学习算法进行形式化描述:定义一个离散时间的折扣马尔可夫决策过程M=<S,A,P,R,γ>,其中S为状态集,A为动作集,P是转移概率,R为立即回报函数,γ为折扣因子。T为总的时间步,τ为一个轨迹序列,τ=(s0,a0,r0,s1,a1,r1,…),对应的累积回报为。则强化学习的目标是:找到最优策略π,使得该策略下的累积回报期望最大,即。
2.3.1 最优策略定义
对于任何状态s,当且仅当遵循策略π的价值不小于遵循策略π'的价值时,则称策略π优于策略π',即
对于任何MDP,存在一个最优策略,即满足如下公式:
π*≥π,∀π
每个策略对应着一个状态值函数,最优策略自然对应着最优状态值函数。
2.3.2 求解最优策略
根据策略最优定理可知,当值函数最优时采取的策略也是最优的;反过来,策略最优时值函数也最优,所以可以通过求取最优值函数V*或Q*来求取最优策略。
一旦有了V*,基于每一个状态s,做一步搜索,一步搜索之后,出现的最优行为将会是最优的,对应的最优行为集合就是最优策略。
如果我们拥有最优行为值函数Q*,则求解最优策略将变得更为方便。对于任意的状态s,直接找到最大化Q*(s,a)对应的行为,最优策略求取公式如下:
对于任何MDP问题,总存在一个确定性的最优策略,找到最优行为价值函数,就相当于找到了最优策略。
图2-15为求职马尔可夫决策模型的最优策略。
图2-15 最优策略
在同一个状态s下,会同时存在多个行为a,每一个行为a分别对应一个行为值函数Q(s,a)。若在当前状态s下,有m个行为值函数相等且取值最大,则其对应的行为概率均为。
如图2-15,在状态“机器学习”下,存在两个相等的行为值函数,有,则“放弃”和“学习”行为的概率均为。