深度强化学习算法与实践:基于PyTorch的实现
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.3.2 基于策略的(Policy-Based)和基于价值的(Value-Based)

深度强化学习中的模型主要可以分为两类,第一类是基于策略的,第二类则是基于价值的。

在第一类模型中,通过使用神经网络对策略进行拟合,可以通过输入当前模型的状态,对智能体的下一步动作进行决策,通过使用神经网络输出的策略,并且使用策略梯度(Policy Gradient)对策略进行不断优化,可以让策略神经网络预测出最优的策略,最后让智能体通过采取这些策略来获取尽可能大的奖励,典型的算法如A3C算法。

在第二类模型中,主要拟合的是价值函数和动作-价值函数,通过估计不同的状态所处的价值,然后尽可能让智能体处于价值高的状态,这样就能获取最多的奖励,典型的算法如DQN算法。需要注意的是,有些网络可能综合了策略网络和机制网络的特点,典型的如SAC算法,会同时训练策略网络和价值网络,能够加快算法的收敛。