我有一个大约100个数值的数据集。我将神经网络的学习率设置为0.0001。我已经成功地对数据集进行了超过一百万次的训练。但是我的问题是,神经网络中非常低的学习率会产生什么影响?
答案 0 :(得分:3)
低学习率主要意味着收敛速度较慢:您正在以较小的步长向下移动损失函数(步长为学习率)。 如果您的函数是凸的,这不是问题,您将等待更多,但将找到一个好的解决方案。
如果(例如在深度神经网络中)您的功能不是凸面的,那么学习率较低可能会导致达到“最佳”而不是最佳的最佳状态(陷入局部最小值,而不会跳出所需的步幅)
这就是为什么有自适应的不同优化算法的原因:像ADAM,RMSProp这样的算法对网络中的每个权重都有不同的学习率(每个单一学习率都始于相同的值)。这样,优化算法可以针对每个参数独立工作,以期找到更好的解决方案(并使初始学习率的选择不再那么关键)