标签: reinforcement-learning markov-chains markov-decision-process
你好StackOverflow社区!
我对强化学习中的无模型预测/控制算法有疑问。 在David Silver的讲座中,对MC和TD进行了偏差/方差折衷分析(即MC没有偏差和高方差,而TD(0)有一些偏差和低方差),但是在进行比较时比较了环境中的状态拥有Markov属性。 您能否评论一下偏见和差异会发生什么: 1。。当我们在具有不具有马尔可夫属性的状态的环境中使用MC时 2。与TD算法相同。 与应用于具有马尔可夫性质的国家相比?