我觉得我搞砸了。
我一直认为:
- 1步TD on-policy = Sarsa
- 1步TD关闭政策= Q-learning
因此我得出结论:
- n-step TD on-policy = n-step Sarsa
- n步TD关闭策略= n步Q学习
有人可以帮我命名吗?
Link to Sutton's book(非政策n步Sarsa,第149页)
答案 0 :(得分:3)
我一直以为:
- 1步TD on-policy = Sarsa
- 1步TD关闭政策= Q-learning
这大多是正确的,但不是完整的故事。 Q-learning是一种非政策性的一步法时差学习,但不仅如此;它专门更新了与当前估算相比贪婪的政策的Q值。非政策价值学习可以更普遍,它可以是针对任何目标政策的学习; Q-learning更具体,特别是将贪婪的政策作为目标政策。
Q-learning向n
步骤的简单扩展将不再正确,因为这对于非策略算法(如Q-learning)不起作用。你必须以某种方式纠正“脱离政策”;一种方法是重要抽样。当您以更一般的方式(对于任何可能的目标策略)引入它时,您将在您提到的页面上获得算法,它们在那里称为Off-policy n
- step Sarsa。我想这个算法的一个特定实例,目标政策pi
是关于Q
的贪婪政策,可以直观地被理解为n
的“正确”版本 - 步骤Q学习。