2.1.7 学习率_代数大脑：揭秘智能背后的逻辑-QQ阅读男生历史网

上QQ阅读APP看书，第一时间看更新

学习算法（例如反向传播）使用称为学习率的参数，该参数是一个常数，其值为误差信号与节点活性值的乘积。在大多数模型中，学习率较小，导致学习必须是渐进的。McClelland、McNaughton和O'Reilly（1995，p.437）很好地解释了学习率偏低的两个原则性原因：

测量的准确性将随样本数量的增加而增加，较小的学习率通过网络对大量最近的示例进行平均，从而增加有效样本的数量。
梯度下降算法……可以保证结果得到改善，但前提是必须在每个步骤上对连接值的权重进行极小的调整……每次通过训练集后，权重只能稍做更改；否则，某些权重的变化将破坏其他权重变化的影响，并且权重将趋于振荡。另一方面，如果变化很小，则每次通过训练集后，网络都会得到一些优化。