3.7 优化函数_TensorFlow神经网络到深度学习-QQ阅读中文武侠网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

3.7 优化函数

模型的优化对于传统机器学习和深度学习都是很重要的，尤其是深度学习，在训练过程中很可能需要解决一些更加困难的挑战。目前来说，流行且使用较广泛的优化算法有随机梯度下降优化算法、基于冲量优化算法、Adadelta优化算法和Adam优化算法等，下面对这几个优化算法进行介绍。

3.7.1 随机梯度下降优化算法

普通的随机梯度下降优化算法存在以下不足。

·很难选择一个适当的学习率。选择的学习率太小，收敛速度慢；选择的学习率太大，参数波动太大，无法进入效果相对最优的优化点。

·可以采用满足某些条件时调整学习率的方法，如迭代n次将学习率减半，或在训练集准确率到某值时调整学习率。这些人工的调整必须事先定义好，虽然有所改进但是依然无法适应数据集的特征。

·有相同的学习率适用于所有参数更新。如果数据稀疏而且特征又区别很大，可能训练到某个阶段时，部分参数需要采用较小的学习率来调整，另外一部分参数需要较大的学习率来调整。如果都采用相同的学习率，可能最终无法收敛比较好的结果。

·除了局部最小值，普通的随机梯度下降优化容易陷入“鞍点”，即梯度在所有方向上是零，但是这并不是一个最小点，甚至也不是一个局部最小点。“鞍点”示意图如图3-14所示，中间的亮点在两个方向上的梯度都是零，但却在一个“高坡”上。

图3-14 “鞍点”示意图

那么，怎么避免上述不足呢?可参照各种优化算法。

3.7.2 基于冲量优化算法

基于冲量优化算法（Monentum优化算法），其思想很简单，相当于在原来更新参数的基础上增加了“加速度”的概念。用山坡上的球作为例子，小球在往山谷的最低点滚动时，当前时间点的下降距离会积累前面时间点下降的距离，并在路上越来越快。参数的更新亦是如此：冲量在梯度连续指向同一个方向上时会增加，而在梯度方向变化时会减小。这样，就可以更快收敛，并可以减小震荡。

用公式表示为（γ为冲量更新值，一般取0.9）

从公式中可以看出，每次参数的更新会累积上一个时间点的冲量，所以在连续同一个方向更新梯度时，会加速收敛。

普通的随机梯度下降优化算法在最小区域周围的下降图如图3-15所示，基于冲量优化算法在最小区域周围的下降图如图3-16所示。从图3-15和图3-16中可以看出，普通的随机梯度下降优化算法始终是一个速度收敛，而基于冲量优化算法则会更加快速地收敛，并且在遇到一些局部最小点时，基于冲量优化算法会“冲”过这些比较小的“坑”，在某些程度上减少陷入局部最小优化点的概率。