我正在使用Windy Grid World测试SARA,lambda = 1,如果探测导致在到达目标之前多次访问相同的状态 - 动作对,则资格跟踪每次都会增加而不会有任何衰减,因此它会爆炸并导致一切溢出。 如何避免这种情况?
答案 0 :(得分:0)
如果我已正确理解您的问题,问题是给定状态的跟踪会增加太多。在这种情况下,潜在的解决方案是使用替换跟踪而不是经典增量跟踪。
替换跟踪的想法是每次访问状态时将跟踪重置为一个值(通常为1)。下图说明了两种迹线之间的主要区别:
您可以在经典的Sutton& amp; Barto书强化学习:简介,特别是Section 7.8。