学习率下降到累积奖励?

时间:2020-06-17 20:32:25

标签: reinforcement-learning dqn

在深度强化学习中,有什么方法可以降低学习率以累积奖励。我的意思是,当代理能够学习并最大化奖励时,衰减学习率?

1 个答案:

答案 0 :(得分:0)

通过步数修改学习率是很常见的,因此肯定有可能根据累积奖励来修改学习率。

一个风险是您不知道在培训开始时正在寻求什么奖励,因此过早降低学习率是一个常见问题。如果您将奖励目标定为80,并且学习率随着达到该值而急剧下降,那么您将永远不会知道算法是否会达到90,因为学习将停止在80。

另一个问题是将目标设置得太高。如果将目标设置为100,则意味着学习速度不会随着达到85而降低,那么不稳定可能意味着该算法无法收敛到90。

因此,总的来说,我认为人们会尝试各种学习计划,如果可能的话,有时让算法运行大量时间以查看它们是否收敛。