应用错误收集

SGD收敛测试使用学习率

时间：2016-09-12 14:24:46

标签： machine-learning neural-network gradient-descent convergence

任何人都可以对Hugo Larochelle在 lecture 的第8分钟提出的收敛测试做出解释吗？

1 个答案:

答案 0 :(得分：1)

这些条件确保渐近收敛。在这种情况下，我们应该能够无限次地更新近似解。直观地说，要实现这一点，学习率应始终大于零。第一个条件意味着或暗示学习率始终大于0.

另一方面，除了“无限更新”我们的近似解决方案之外，我们还有兴趣更接近最佳解决方案。为实现这一目标，学习率应该越来越小。第二个条件意味着alpha参数应该单调减少。

这两个条件不仅需要SGD，还需要许多其他随机近似方法。由于Robbins–Monro algorithm，有时它们被称为Robbins-Monro条件。