应用错误收集

何时在TD学习上使用Monte Carlo，反之亦然

时间：2019-04-28 16:27:20

标签： machine-learning reinforcement-learning montecarlo temporal-difference

在研究强化学习时，以及涉及到无模型RL时，我们通常使用两种方法：

TD学习
蒙特卡洛

彼此之间何时相互使用？换句话说，我们如何找出最适合我们问题的方法？

1 个答案:

答案 0 :(得分：2)

Sutton & Barto的第6.1和6.2节非常直观地了解了蒙特卡洛和TD学习之间的区别。

话虽如此，当然MC方法与非临时任务显然不兼容。在这种情况下，您将始终需要某种引导程序。