Gradient Descent全球最小值?

时间:2016-04-01 09:09:48

标签: machine-learning gradient-descent

对于最小化平均平方误差的梯度下降算法,算法找到线性预测器的系数。我指的算法是this one。如果学习速率足够小,算法发现的这些系数会收敛到全局最小值。我们知道存在全局最小值,因为平均误差是权重的凸函数。

作为学习率的函数(链接视频中的alpha)怎么样?考虑两种选择学习率的方法:

方法1

迭代-15到2范围内的所有i。

  • 每个让我的学习率为3 ^ i。
  • 运行20000次迭代的梯度下降
  • 衡量您的训练错误

为具有最低训练误差的i选择学习3 ^ i。

方法2

迭代-15到2范围内的所有i。

  • 每个让我的学习率为3 ^ i。
  • 运行20000次迭代的梯度下降
  • 衡量您的训练错误
  • 如果错误高于上一次迭代,请从上一次迭代中选择i并打破循环

方法2是否正确,假设一旦选择学习率的错误增加,所有比那个更大的学习率会更差?

在方法1中,我们检查了范围内的所有学习率值。在方法2中,我们说我们不需要重复所有值 - 直到我们看到错误增加。

1 个答案:

答案 0 :(得分:1)

引用你,

  

...并在经过一定数量的迭代后测量误差   当你看到错误增加时......

嗯,根据视频,这是我们如何检测收敛,如果梯度下降的差异<= 0.001或某个值,那么已经有一个绑定你已经设置了不允许进一步迭代更高成本函数变化的价值。

当假设是线性预测器时,凸函数只有一个局部/全局最小值,因此梯度下降自然会将其降低到最小点。