这是Sutton& Barto的RL书中SARSAλ主题的错误吗?

时间:2016-10-19 19:20:16

标签: reinforcement-learning sarsa

在具有累积合格迹线(http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.html)的sarsaλ中,给出的算法与公式不匹配。

formula表示E←ɣλE+ 1

其中[算法]用第一个E←E + 1更新,然后E←ɣλE有效地进行更新
E←ɣλ。(E + 1)

哪个是对的? 我也看到了具有完全相同的公式和算法的研究论文。

在出版物中是否存在差异,他们错过了在E + 1附近放置一对括号?
如果是这样,大多数研究论文如何复制同样的错误。


如果我误解了某些内容,请指出。

1 个答案:

答案 0 :(得分:0)

我认为他们没有错过任何支架,它是E←ɣλE+ 1。由于E每次应减少ɣλ,除非s是当前的。所以1指的是当前的s。这里有一个数字http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node75.html,它可以让你更好地理解这个想法,它是Equ(7.5)和(7.6)之间的一个。