应用错误收集

首次访问与每次访问蒙地卡罗

时间：2018-10-16 09:25:52

标签： machine-learning reinforcement-learning markov-chains q-learning markov

我最近一直在研究强化学习。为此，我一直在阅读萨顿着名的书，但是有些事情我还不完全了解。

对于蒙特卡洛学习，我们可以在首次访问算法和每次访问算法之间进行选择，并且可以证明两者都渐近收敛到正确的解。但是我想两者之间是有区别的（我从定义上理解了区别，但是我不了解每种方法的缺点）。在某些情况下，我应该使用首次访问，有时还是最后一次访问吗？

非常感谢，贾兹

0 个答案:

没有答案