应用错误收集

对于本书的λ-return算法的在线版本，为什么要从每个地平线前进的情节重新审视所有时间步长，我有些问题：
Reinforcement Learning: An Introduction, 2nd Edition, Chapter 12, Sutton & Barto

Horizon step-by-step expansion

这里，每个水平h的权重向量W1，W2，...，Wh的所有序列都从W0（前一集结尾的权重）开始。但是，它们似乎并不依赖于先前的收益/权重，可以独立计算。在我看来，这只是出于澄清的目的，您只能在情节终止时针对最终视域h = T计算它们。这与离线版本的算法相同，实际的更新规则为：

General weight-vector update formula

毫不奇怪，在19状态随机游走示例中，两种算法的结果完全相同：

在书中提到在线版本应该表现得更好一些，在这种情况下，它应该具有与True Online TD（λ）相同的结果。在实施后者时，它的性能确实优于离线版本，但对于简单而缓慢的在线版本，我无法弄清楚。

任何建议将不胜感激。

谢谢

在我看来，这只是为了澄清，您只能在情节终止时针对最终视域h = T计算它们。

这不是事实。在线λ返回算法的全部要点是在线：它在情节期间进行更新。当选择的动作由当前值估计确定时，这对于控制设置至关重要。即使在预测设置中，为较早地域进行的权重更新也会起作用。

这是因为来自最后一个视域的最终权重向量始终用于更新目标（即截短的lambda返回）的计算中。因此，w_1 ^ 1用于计算h = 2的所有目标，而w_2 ^ 2用于计算h = 3的所有目标。由于目标是使用最新的权重向量计算的，因此通常更准确。

即使在预测设置中，在线lambda返回算法也优于离线版本，因为它使用的目标更好。