如何计算SARSA的资格跟踪?

时间:2014-05-09 07:36:47

标签: machine-learning reinforcement-learning sarsa

我试图实现资格跟踪(前瞻性),其伪代码可以在下图中找到

enter image description here

我不确定For all s, a的含义(下面第5行)。他们从哪里获得s, a的集合?

如果它具有前瞻性,请从当前状态向前循环以观察s'吗?

你是否调整了每一个e(s, a)

1 个答案:

答案 0 :(得分:1)

不幸的是,他们在这里重复使用变量s和a两个不同的范围,但是,你可以调整所有e(s,a)值,例如,

for every state s in your state space
    for every action a in your action space
        update Q(s,a)
        update e(s,a)

请注意这里发生了什么。 e(s,a)增加指数减少量。但是在你进入那个循环之前,你递增对应于刚刚访问过的状态/动作对的单个 e(s,a)。因此,该对以某种方式“重置” - 它不会获得指数级更小的更新,并且在下一次迭代中,它的更新将继续大于您最近未访问过的所有对。每次你访问状态/动作对时,你都会增加它对Q更新所做的重量几次迭代。