应用错误收集

我似乎总是在不同的案文中遇到反例，说明什么状态构成了马尔可夫性质。

似乎有些演示文稿假定MDP是一种MDP，其中，当前状态/观测值绝对会中继所有必要的环境信息以做出最佳决策。

其他演示文稿仅声明当前状态/观测值具有先前观察到的状态的所有必要详细信息，以做出最佳决策（例如：http://www.incompleteideas.net/book/ebook/node32.html）。

这两个定义之间的差异是巨大的，因为有些人似乎认为像扑克之类的纸牌游戏缺乏Markov属性，因为我们不知道对手持有的纸牌，因此这种不完整的信息使Markov属性无效。 >

根据我的理解，另一个定义似乎表明具有隐藏状态的纸牌游戏（例如隐藏的纸牌）实际上是马尔科夫，只要代理基于自己的决定就好像可以访问所有自己先前的观察结果。

那么，马尔可夫属性是指哪一个？它是指拥有有关环境的完整信息以做出最佳决策，还是接受不完整的信息，而只是简单地基于最佳决策来引用代理的当前状态/观察，就好像该状态可以访问代理的所有先前状态？即：在扑克示例中，只要当前状态为我们提供了以前观察到的所有信息，即使存在很多隐藏变量，现在是否也可以满足Markov属性？

马尔可夫决策过程对哪些国家具有马尔可夫性质的绝对澄清

0 个答案: