在具有累积合格迹线(http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.html)的sarsaλ中,给出的算法与公式不匹配。
formula表示E←ɣλE+ 1
其中[算法]用第一个E←E + 1更新,然后E←ɣλE有效地进行更新
E←ɣλ。(E + 1)
哪个是对的? 我也看到了具有完全相同的公式和算法的研究论文。
在出版物中是否存在差异,他们错过了在E + 1附近放置一对括号?
如果是这样,大多数研究论文如何复制同样的错误。
或
如果我误解了某些内容,请指出。
答案 0 :(得分:0)
我认为他们没有错过任何支架,它是E←ɣλE+ 1。由于E每次应减少ɣλ,除非s是当前的。所以1指的是当前的s。这里有一个数字http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node75.html,它可以让你更好地理解这个想法,它是Equ(7.5)和(7.6)之间的一个。