非马尔可夫状态的强化算法偏差/方差

时间:2019-06-06 15:11:44

标签: reinforcement-learning markov-chains markov-decision-process

你好StackOverflow社区!

我对强化学习中的无模型预测/控制算法有疑问。 在David Silver的讲座中,对MC和TD进行了偏差/方差折衷分析(即MC没有偏差和高方差,而TD(0)有一些偏差和低方差),但是在进行比较时比较了环境中的状态拥有Markov属性。

您能否评论一下偏见和差异会发生什么:
1。。当我们在具有不具有马尔可夫属性的状态的环境中使用MC时
2。与TD算法相同。
与应用于具有马尔可夫性质的国家相比?

0 个答案:

没有答案