Question

我试图实现资格跟踪（前瞻性），其伪代码可以在下图中找到

enter image description here

我不确定For all s, a的含义（下面第5行）。他们从哪里获得s, a的集合？

如果它具有前瞻性，请从当前状态向前循环以观察s'吗？

你是否调整了每一个e(s, a)？

Answer 1

不幸的是，他们在这里重复使用变量s和a两个不同的范围，但是，你可以调整所有e（s，a）值，例如，

for every state s in your state space
    for every action a in your action space
        update Q(s,a)
        update e(s,a)

请注意这里发生了什么。 e（s，a）增加指数减少量。但是在你进入那个循环之前，你递增对应于刚刚访问过的状态/动作对的单个 e（s，a）。因此，该对以某种方式“重置” - 它不会获得指数级更小的更新，并且在下一次迭代中，它的更新将继续大于您最近未访问过的所有对。每次你访问状态/动作对时，你都会增加它对Q更新所做的重量几次迭代。

如何计算SARSA的资格跟踪？

1 个答案: