深度强化学习算法与实践:基于PyTorch的实现
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.5 强化学习的优缺点

前文中介绍了强化学习和深度强化学习的一些基本概念。作为一种人工智能算法,强化学习无疑是一条很有希望通向通用人工智能的道路。可以看到,训练强化学习的过程中不需要任何训练数据,只需要有一定的强化学习环境,能够让智能体对环境进行探索,智能体就能通过算法找到一系列最优的策略,或者到达一系列最优的价值点,来尽可能获取最大的奖励。这个和通用人工智能所需要解决的问题很类似,如果能找到一个通用的智能体来完成正常人类的学习过程,那么强化学习算法必然能够称为通用人工智能算法。虽然看起来很有希望,但是强化学习算法在成为通用人工智能算法的路上仍然困难重重。

首先就是环境的问题。前面我们已经看到,强化学习需要有一定的环境,那么如何构建一个合理的环境就是一个首要的任务。这里所说的构建环境包含一个合理的能够跟智能体互动的环境,以及构造合理的奖励值。其中,第一点保证了智能体能够合理地在这个环境中探索,而不会在环境中某一个地方因为某种原因被停止(比如环境有个障碍智能体撞上后无法脱离。第二点所说的合理的奖励值则保证智能体能够做出正常的行为(比如奖励值太小导致智能体倾向于保持原来的状态)。这些都是需要考虑的重要因素。

其次就是深度强化学习和深度学习相比,往往需要更大的数据量和训练次数才能收敛。这一点对于深度强化学习的应用造成了不利的影响,特别是策略梯度算法,往往需要在环境中使用策略生成很多数据,在这种情况下往往会导致算法的采样效率低下。