代数大脑:揭秘智能背后的逻辑
上QQ阅读APP看书,第一时间看更新

2.1.7 学习率

学习算法(例如反向传播)使用称为学习率的参数,该参数是一个常数,其值为误差信号与节点活性值的乘积。在大多数模型中,学习率较小,导致学习必须是渐进的。McClelland、McNaughton和O'Reilly(1995,p.437)很好地解释了学习率偏低的两个原则性原因:

  • 测量的准确性将随样本数量的增加而增加,较小的学习率通过网络对大量最近的示例进行平均,从而增加有效样本的数量。
  • 梯度下降算法……可以保证结果得到改善,但前提是必须在每个步骤上对连接值的权重进行极小的调整……每次通过训练集后,权重只能稍做更改;否则,某些权重的变化将破坏其他权重变化的影响,并且权重将趋于振荡。另一方面,如果变化很小,则每次通过训练集后,网络都会得到一些优化。