1.2.4 强化学习_神经网络设计与实现-QQ阅读男频科幻网

上QQ阅读APP看书，第一时间看更新

强化学习（RL）是我们目前所见的最独特的类别。这个概念非常有趣：该算法试图找出一个策略来最大化奖励总和。

该策略由使用它在环境中执行动作的智能体来学习。然后，环境返回反馈，智能体使用该反馈来改进其策略。反馈是对所执行动作的奖励，可以是正数、空值或负数，如图1-3所示。

图　1-3