应用错误收集

我一直以为：


1步TD on-policy = Sarsa

1步TD关闭政策= Q-learning

这大多是正确的，但不是完整的故事。 Q-learning是一种非政策性的一步法时差学习，但不仅如此;它专门更新了与当前估算相比贪婪的政策的Q值。非政策价值学习可以更普遍，它可以是针对任何目标政策的学习; Q-learning更具体，特别是将贪婪的政策作为目标政策。

Q-learning向n步骤的简单扩展将不再正确，因为这对于非策略算法（如Q-learning）不起作用。你必须以某种方式纠正“脱离政策”;一种方法是重要抽样。当您以更一般的方式（对于任何可能的目标策略）引入它时，您将在您提到的页面上获得算法，它们在那里称为Off-policy n - step Sarsa。我想这个算法的一个特定实例，目标政策pi是关于Q的贪婪政策，可以直观地被理解为n的“正确”版本 - 步骤Q学习。

为什么Sutton的RL书中没有n步Q学习算法？

1 个答案: