梯度下降算法和不同的学习率

时间:2020-04-23 17:58:35

标签: algorithm machine-learning gradient-descent

在梯度下降算法中,我们可以选择算法的每次迭代中不同的学习速率,直到收敛为止吗?

1 个答案:

答案 0 :(得分:0)

是的,有多种方法可以根据时代/迭代或损耗微分函数来设置超参数。改变梯度下降的学习率直观地意味着改变步长,其中一个折衷是大步长逃避了局部最优,但可能需要更多步长才能收敛。通常情况下,从大变小开始是有意义的,但是还有更多优化方法可以加速/调节拟合和学习率标量的行为