Q学习与时间差异与基于模型的强化学习

时间:2015-12-09 14:17:54

标签: machine-learning reinforcement-learning q-learning temporal-difference

我参加了一个名为" Intelligent Machines"在大学里。我们介绍了3种强化学习方法,并且我们直接知道何时使用它们,我引用:

  1. Q-Learning - 当MDP无法解决时最佳。
  2. 时间差异学习 - 当MDP已知或可以学习但无法解决时最佳。
  3. 基于模型 - 最好不能学习MDP。
  4. 是否有任何好的例子说明何时选择一种方法而不是另一种方法?

1 个答案:

答案 0 :(得分:30)

时间差异an approach to learning how to predict a quantity that depends on future values of a given signal。它可用于学习V函数和Q函数,而 Q-learning 是用于学习Q函数的特定TD算法。正如Don Reba所述,您需要Q函数来执行操作(例如,遵循epsilon-greedy策略)。如果您只有V函数,您仍然可以通过迭代所有可能的下一个状态并选择导致您进入具有最高V值的状态的操作来推导Q函数。有关示例和更多见解,我建议使用classic book from Sutton and Barto

无模型 RL中,您不会学习状态转换功能(模型),您只能依赖于样本。但是,您可能也对学习它感兴趣,例如因为您无法收集许多样本并希望生成一些虚拟样本。在这种情况下,我们谈论基于模型的 RL。 基于模型的RL在机器人技术中非常普遍,在这种情况下,您无法执行许多真实的模拟,或者机器人会破坏。 This是一个很好的调查,有许多例子(但它只涉及政策搜索算法)。再举一个例子,看看this paper。在这里,作者与政策一起学习了近似机器人正演模型的高斯过程,以模拟轨迹并减少真实机器人相互作用的数量。