标签: machine-learning reinforcement-learning montecarlo temporal-difference
在研究强化学习时,以及涉及到无模型RL时,我们通常使用两种方法:
彼此之间何时相互使用?换句话说,我们如何找出最适合我们问题的方法?
答案 0 :(得分:2)
Sutton & Barto的第6.1和6.2节非常直观地了解了蒙特卡洛和TD学习之间的区别。
话虽如此,当然MC方法与非临时任务显然不兼容。在这种情况下,您将始终需要某种引导程序。