标签: machine-learning reinforcement-learning markov-chains q-learning markov
我最近一直在研究强化学习。为此,我一直在阅读萨顿着名的书,但是有些事情我还不完全了解。
对于蒙特卡洛学习,我们可以在首次访问算法和每次访问算法之间进行选择,并且可以证明两者都渐近收敛到正确的解。但是我想两者之间是有区别的(我从定义上理解了区别,但是我不了解每种方法的缺点)。在某些情况下,我应该使用首次访问,有时还是最后一次访问吗?
非常感谢, 贾兹