应用错误收集

这是Sutton＆amp; Barto的RL书中SARSAλ主题的错误吗？

时间：2016-10-19 19:20:16

标签： reinforcement-learning sarsa

在具有累积合格迹线（http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.html）的sarsaλ中，给出的算法与公式不匹配。

formula表示E←ɣλE+ 1

其中[算法]用第一个E←E + 1更新，然后E←ɣλE有效地进行更新
E←ɣλ。（E + 1）

哪个是对的？我也看到了具有完全相同的公式和算法的研究论文。

在出版物中是否存在差异，他们错过了在E + 1附近放置一对括号？
如果是这样，大多数研究论文如何复制同样的错误。

或
如果我误解了某些内容，请指出。

1 个答案:

答案 0 :(得分：0)

我认为他们没有错过任何支架，它是E←ɣλE+ 1。由于E每次应减少ɣλ，除非s是当前的。所以1指的是当前的s。这里有一个数字http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node75.html，它可以让你更好地理解这个想法，它是Equ（7.5）和（7.6）之间的一个。