何时在TD学习上使用Monte Carlo,反之亦然

时间:2019-04-28 16:27:20

标签: machine-learning reinforcement-learning montecarlo temporal-difference

在研究强化学习时,以及涉及到无模型RL时,我们通常使用两种方法:

  • TD学习
  • 蒙特卡洛

彼此之间何时相互使用?换句话说,我们如何找出最适合我们问题的方法?

1 个答案:

答案 0 :(得分:2)

Sutton & Barto的第6.1和6.2节非常直观地了解了蒙特卡洛和TD学习之间的区别。

话虽如此,当然MC方法与非临时任务显然不兼容。在这种情况下,您将始终需要某种引导程序。