Q学习代理的学习率

时间:2015-10-08 09:31:13

标签: machine-learning reinforcement-learning q-learning

学习率如何影响收敛率和收敛本身的问题。 如果学习率是恒定的,Q函数会收敛到最优开启还是学习率必然会衰减以保证收敛?

3 个答案:

答案 0 :(得分:2)

学习率表示对解决方案采取的步骤的大小。

不应该太大一个数字,因为它可能会在最小值附近不断振荡,而不应该太小一个数字它会花费很多达到最小值的时间和迭代。

建议学习率下降的原因是因为最初当我们处于解决方案领域的完全随机点时,我们需要在解决方案方面取得重大进展,之后当我们接近它时,我们进行小跳跃,因此小改进最终达到最小值。

类比可以制作为:在高尔夫游戏中,当球远离洞时,玩家很难尽可能地接近它到了洞。后来当他到达被标记的区域时,他选择了另一根棍子以获得准确的短射。

所以并不是说他没有选择短杆就能将球放入洞中,他可能会将球送到目标前两三次。但如果他以最佳方式进行比赛并使用适当的力量来到洞中,那将是最好的。同样是腐朽的学习率。

答案 1 :(得分:1)

学习率必须衰减但不能太快。 收敛的条件如下(对不起,没有乳胶):

  • sum(alpha(t),1,inf)= inf

  • sum(alpha(t)^ 2,1,inf)< INF

alpha = k /(k + t)之类的东西可以很好地运作。

本文正好讨论了这个主题:

Issue3258 #1438

答案 2 :(得分:0)

它会腐烂,否则会有一些波动引发政策的微小变化。