为什么Sutton的RL书中没有n步Q学习算法?

时间:2018-04-13 17:10:39

标签: reinforcement-learning q-learning sarsa

我觉得我搞砸了。

我一直认为:
- 1步TD on-policy = Sarsa
- 1步TD关闭政策= Q-learning

因此我得出结论: - n-step TD on-policy = n-step Sarsa
- n步TD关闭策略= n步Q学习

然而,在Sutton的书中,他从未引入过n步Q-Learning,但他确实引入了n步非策略Sarsa。现在我感到困惑。

有人可以帮我命名吗?

Link to Sutton's book(非政策n步Sarsa,第149页)

1 个答案:

答案 0 :(得分:3)

  

我一直以为:

     
      
  • 1步TD on-policy = Sarsa
  •   
  • 1步TD关闭政策= Q-learning
  •   

这大多是正确的,但不是完整的故事。 Q-learning是一种非政策性的一步法时差学习,但不仅如此;它专门更新了与当前估算相比贪婪的政策的Q值。非政策价值学习可以更普遍,它可以是针对任何目标政策的学习; Q-learning更具体,特别是将贪婪的政策作为目标政策。

Q-learning向n步骤的简单扩展将不再正确,因为这对于非策略算法(如Q-learning)不起作用。你必须以某种方式纠正“脱离政策”;一种方法是重要抽样。当您以更一般的方式(对于任何可能的目标策略)引入它时,您将在您提到的页面上获得算法,它们在那里称为Off-policy n - step Sarsa。我想这个算法的一个特定实例,目标政策pi是关于Q的贪婪政策,可以直观地被理解为n的“正确”版本 - 步骤Q学习。