马尔可夫决策过程对哪些国家具有马尔可夫性质的绝对澄清

时间:2019-05-24 10:35:57

标签: markov

我似乎总是在不同的案文中遇到反例,说明什么状态构成了马尔可夫性质。

似乎有些演示文稿假定MDP是一种MDP,其中,当前状态/观测值绝对会中继所有必要的环境信息以做出最佳决策。

其他演示文稿仅声明当前状态/观测值具有先前观察到的状态的所有必要详细信息,以做出最佳决策(例如:http://www.incompleteideas.net/book/ebook/node32.html)。

这两个定义之间的差异是巨大的,因为有些人似乎认为像扑克之类的纸牌游戏缺乏Markov属性,因为我们不知道对手持有的纸牌,因此这种不完整的信息使Markov属性无效。 >

根据我的理解,另一个定义似乎表明具有隐藏状态的纸牌游戏(例如隐藏的纸牌)实际上是马尔科夫,只要代理基于自己的决定就好像可以访问所有自己先前的观察结果。

那么,马尔可夫属性是指哪一个?它是指拥有有关环境的完整信息以做出最佳决策,还是接受不完整的信息,而只是简单地基于最佳决策来引用代理的当前状态/观察,就好像该状态可以访问代理的所有先前状态?即:在扑克示例中,只要当前状态为我们提供了以前观察到的所有信息,即使存在很多隐藏变量,现在是否也可以满足Markov属性?

0 个答案:

没有答案