SGD收敛测试使用学习率

时间:2016-09-12 14:24:46

标签: machine-learning neural-network gradient-descent convergence

任何人都可以对Hugo Larochelle在 lecture 的第8分钟提出的收敛测试做出解释吗?

1 个答案:

答案 0 :(得分:1)

这些条件确保渐近收敛。在这种情况下,我们应该能够无限次地更新近似解。直观地说,要实现这一点,学习率应始终大于零。第一个条件意味着或暗示学习率始终大于0.

另一方面,除了“无限更新”我们的近似解决方案之外,我们还有兴趣更接近最佳解决方案。为实现这一目标,学习率应该越来越小。第二个条件意味着alpha参数应该单调减少。

这两个条件不仅需要SGD,还需要许多其他随机近似方法。由于Robbins–Monro algorithm,有时它们被称为Robbins-Monro条件。