两者之间有什么区别?例如,两者用于达到函数的最小点(较低的损失)。
我理解(我认为)学习率乘以梯度(斜率)以使梯度下降,但这是吗?我想念什么吗?
lr和渐变之间有什么区别?
谢谢
答案 0 :(得分:1)
使用随机梯度下降算法训练深度学习神经网络。
随机梯度下降是一种优化算法,它使用训练数据集中的示例估算模型当前状态的误差梯度,然后使用误差的反向传播更新模型的权重算法,简称为反向传播。
在训练过程中权重的更新量称为步长或“ 学习率”。
具体来说,学习率是可配置的超参数 用于训练神经网络的积极 值,通常在0.0到1.0之间。
学习率控制模型适应问题的速度。鉴于每次更新权重的更改较小,学习率越小,训练周期就越长;而学习率越大,变化率越快,训练周期就越少。
学习率太大会导致模型收敛到次优解决方案,而学习率太小会导致过程陷入困境。
训练深度学习神经网络的挑战包括仔细选择学习速率。它可能是模型最重要的超参数。
学习率也许是最重要的超参数。如果您有时间仅调整一个超参数,请调整学习率。
-第429页,深度学习,2016年。
有关学习率及其作用方式的更多信息,请参阅文章:
How to Configure the Learning Rate Hyperparameter When Training Deep Learning Neural Networks
您也可以在这里参考:Understand the Impact of Learning Rate on Neural Network Performance