标签: algorithm machine-learning gradient-descent
在梯度下降算法中,我们可以选择算法的每次迭代中不同的学习速率,直到收敛为止吗?
答案 0 :(得分:0)
是的,有多种方法可以根据时代/迭代或损耗微分函数来设置超参数。改变梯度下降的学习率直观地意味着改变步长,其中一个折衷是大步长逃避了局部最优,但可能需要更多步长才能收敛。通常情况下,从大变小开始是有意义的,但是还有更多优化方法可以加速/调节拟合和学习率标量的行为