应用错误收集

使用随机梯度下降算法训练深度学习神经网络。

随机梯度下降是一种优化算法，它使用训练数据集中的示例估算模型当前状态的误差梯度，然后使用误差的反向传播更新模型的权重算法，简称为反向传播。

在训练过程中权重的更新量称为步长或“ 学习率”。

具体来说，学习率是可配置的超参数用于训练神经网络的积极值，通常在0.0到1.0之间。

学习率控制模型适应问题的速度。鉴于每次更新权重的更改较小，学习率越小，训练周期就越长；而学习率越大，变化率越快，训练周期就越少。

学习率太大会导致模型收敛到次优解决方案，而学习率太小会导致过程陷入困境。

训练深度学习神经网络的挑战包括仔细选择学习速率。它可能是模型最重要的超参数。

学习率也许是最重要的超参数。如果您有时间仅调整一个超参数，请调整学习率。

-第429页，深度学习，2016年。

有关学习率及其作用方式的更多信息，请参阅文章：