在“Stone,Peter,Richard S. Sutton和Gregory Kuhlmann。”针对robocup足球运动的强化学习。“Adaptive Behavior 13.3(2005):165-188。”,RLstep伪代码似乎与Sarsa有点不同(λ),作者说RLStep实现。
以下是RLstep pseudocode,此处是Sarsa(lambda) pseudocode。
困惑的地方是:
Sarsa(λ)伪代码中的第10行更新每个的Q值
在e(s,a)
添加1之后的状态 - 动作对。但在RLstep
伪代码资格跟踪更新(第19行)不会发生
直到值更新后(第17行)。
RLstep中的第18行和第19行似乎与Sarsa(λ)伪代码完全不同。
第20-25行的资格跟踪是什么?