应用错误收集

如何防止SARA中的lambda = 1的资格跟踪爆炸了多次访问的状态 - 动作对？

时间：2017-07-24 01:31:22

标签： reinforcement-learning temporal-difference sarsa

我正在使用Windy Grid World测试SARA，lambda = 1，如果探测导致在到达目标之前多次访问相同的状态 - 动作对，则资格跟踪每次都会增加而不会有任何衰减，因此它会爆炸并导致一切溢出。如何避免这种情况？

1 个答案:

答案 0 :(得分：0)

如果我已正确理解您的问题，问题是给定状态的跟踪会增加太多。在这种情况下，潜在的解决方案是使用替换跟踪而不是经典增量跟踪。

替换跟踪的想法是每次访问状态时将跟踪重置为一个值（通常为1）。下图说明了两种迹线之间的主要区别：

您可以在经典的Sutton＆amp; amp; Barto书强化学习：简介，特别是Section 7.8。