我试图实现资格跟踪(前瞻性),其伪代码可以在下图中找到
我不确定For all s, a
的含义(下面第5行)。他们从哪里获得s, a
的集合?
如果它具有前瞻性,请从当前状态向前循环以观察s'
吗?
你是否调整了每一个e(s, a)
?
答案 0 :(得分:1)
不幸的是,他们在这里重复使用变量s和a两个不同的范围,但是,你可以调整所有e(s,a)值,例如,
for every state s in your state space
for every action a in your action space
update Q(s,a)
update e(s,a)
请注意这里发生了什么。 e(s,a)增加指数减少量。但是在你进入那个循环之前,你递增对应于刚刚访问过的状态/动作对的单个 e(s,a)。因此,该对以某种方式“重置” - 它不会获得指数级更小的更新,并且在下一次迭代中,它的更新将继续大于您最近未访问过的所有对。每次你访问状态/动作对时,你都会增加它对Q更新所做的重量几次迭代。