对于本书的λ-return算法的在线版本,为什么要从每个地平线前进的情节重新审视所有时间步长,我有些问题:
Reinforcement Learning: An Introduction, 2nd Edition, Chapter 12, Sutton & Barto
这里,每个水平h的权重向量W1,W2,...,Wh的所有序列都从W0(前一集结尾的权重)开始。但是,它们似乎并不依赖于先前的收益/权重,可以独立计算。在我看来,这只是出于澄清的目的,您只能在情节终止时针对最终视域h = T计算它们。这与离线版本的算法相同,实际的更新规则为:
毫不奇怪,在19状态随机游走示例中,两种算法的结果完全相同:
在书中提到在线版本应该表现得更好一些,在这种情况下,它应该具有与True Online TD(λ)相同的结果。在实施后者时,它的性能确实优于离线版本,但对于简单而缓慢的在线版本,我无法弄清楚。
任何建议将不胜感激。
谢谢
答案 0 :(得分:1)
在我看来,这只是为了澄清,您只能在情节终止时针对最终视域h = T计算它们。
这不是事实。在线λ返回算法的全部要点是在线:它在情节期间进行更新。当选择的动作由当前值估计确定时,这对于控制设置至关重要。即使在预测设置中,为较早地域进行的权重更新也会起作用。
这是因为来自最后一个视域的最终权重向量始终用于更新目标(即截短的lambda返回)的计算中。因此,w_1 ^ 1用于计算h = 2的所有目标,而w_2 ^ 2用于计算h = 3的所有目标。由于目标是使用最新的权重向量计算的,因此通常更准确。
即使在预测设置中,在线lambda返回算法也优于离线版本,因为它使用的目标更好。