在深度强化学习中,有什么方法可以降低学习率以累积奖励。我的意思是,当代理能够学习并最大化奖励时,衰减学习率?
答案 0 :(得分:0)
通过步数修改学习率是很常见的,因此肯定有可能根据累积奖励来修改学习率。
一个风险是您不知道在培训开始时正在寻求什么奖励,因此过早降低学习率是一个常见问题。如果您将奖励目标定为80,并且学习率随着达到该值而急剧下降,那么您将永远不会知道算法是否会达到90,因为学习将停止在80。
另一个问题是将目标设置得太高。如果将目标设置为100,则意味着学习速度不会随着达到85而降低,那么不稳定可能意味着该算法无法收敛到90。
因此,总的来说,我认为人们会尝试各种学习计划,如果可能的话,有时让算法运行大量时间以查看它们是否收敛。