如何防止SARA中的lambda = 1的资格跟踪爆炸了多次访问的状态 - 动作对?

时间:2017-07-24 01:31:22

标签: reinforcement-learning temporal-difference sarsa

我正在使用Windy Grid World测试SARA,lambda = 1,如果探测导致在到达目标之前多次访问相同的状态 - 动作对,则资格跟踪每次都会增加而不会有任何衰减,因此它会爆炸并导致一切溢出。 如何避免这种情况?

1 个答案:

答案 0 :(得分:0)

如果我已正确理解您的问题,问题是给定状态的跟踪会增加太多。在这种情况下,潜在的解决方案是使用替换跟踪而不是经典增量跟踪

替换跟踪的想法是每次访问状态时将跟踪重置为一个值(通常为1)。下图说明了两种迹线之间的主要区别:

enter image description here

您可以在经典的Sutton& amp; Barto书强化学习:简介,特别是Section 7.8