首次访问与每次访问蒙地卡罗

时间:2018-10-16 09:25:52

标签: machine-learning reinforcement-learning markov-chains q-learning markov

我最近一直在研究强化学习。为此,我一直在阅读萨顿着名的书,但是有些事情我还不完全了解。

对于蒙特卡洛学习,我们可以在首次访问算法和每次访问算法之间进行选择,并且可以证明两者都渐近收敛到正确的解。但是我想两者之间是有区别的(我从定义上理解了区别,但是我不了解每种方法的缺点)。在某些情况下,我应该使用首次访问,有时还是最后一次访问吗?

非常感谢, 贾兹

0 个答案:

没有答案