应用错误收集

对于最小化平均平方误差的梯度下降算法，算法找到线性预测器的系数。我指的算法是this one。如果学习速率足够小，算法发现的这些系数会收敛到全局最小值。我们知道存在全局最小值，因为平均误差是权重的凸函数。

作为学习率的函数（链接视频中的alpha）怎么样？考虑两种选择学习率的方法：

方法1

迭代-15到2范围内的所有i。

为具有最低训练误差的i选择学习3 ^ i。

方法2

迭代-15到2范围内的所有i。

方法2是否正确，假设一旦选择学习率的错误增加，所有比那个更大的学习率会更差？

在方法1中，我们检查了范围内的所有学习率值。在方法2中，我们说我们不需要重复所有值 - 直到我们看到错误增加。