如何理解Keepaway中的RLstep(与Sarsa比较)

时间:2016-10-21 00:32:26

标签: reinforcement-learning sarsa

在“Stone,Peter,Richard S. Sutton和Gregory Kuhlmann。”针对robocup足球运动的强化学习。“Adaptive Behavior 13.3(2005):165-188。”,RLstep伪代码似乎与Sarsa有点不同(λ),作者说RLStep实现。

以下是RLstep pseudocode,此处是Sarsa(lambda) pseudocode

困惑的地方是:

  • Sarsa(λ)伪代码中的第10行更新每个的Q值 在e(s,a)添加1之后的状态 - 动作对。但在RLstep 伪代码资格跟踪更新(第19行)不会发生 直到值更新后(第17行)。

  • RLstep中的第18行和第19行似乎与Sarsa(λ)伪代码完全不同。

  • 第20-25行的资格跟踪是什么?

0 个答案:

没有答案