马尔可夫决策过程的状态转变是否与行动有关?

时间:2019-05-11 02:42:14

标签: reinforcement-learning markov-decision-process

我知道当满足Markov Property时,下一个状态仅与当前状态有关。但是在马尔可夫决策过程(MDP)中,我们需要选择一个动作并执行该动作以进行过渡。这是否意味着状态转换与所选动作有关,而不仅与状态有关? 这是否违反了马尔可夫的财产?

大多数强化学习都是基于MDP的,如果在MDP中我们认为选择的动作是马尔可夫属性的一个因素,那么在AlphaGo中,下一个状态不仅与当前状态和选择的动作有关,还受到以下因素的影响对手的动作。 Go-game是否满足Markov属性?强化学习算法是否不需要环境完全满足马尔可夫性质?非常令人困惑。

如果在围棋游戏中,我们仍然认为状态转换与当前状态有关,那么就没有问题。

Go游戏满足Markov Property吗? MDP中选择的操作是否是过渡之间的影响因素? RL算法(基于MDP而不是POMDP)是否不需要环境完全满足马尔可夫性质?

1 个答案:

答案 0 :(得分:1)

不是具有Markov属性的算法。马尔可夫属性是问题设置的属性,它取决于您使用的状态。

但是,是的,在MDP中,状态转换不仅取决于当前状态,还取决于控制器采取的措施。但这不取决于任何早期状态。那是马尔可夫财产。

一旦您处于给定状态,您如何到达那里就无关紧要。当前状态包含做出预测或决策所需的所有信息。由于不需要任何内存,因此大大简化了决策算法。

为了使MDP与对手有意义,您必须将对手视为环境的一部分。对手做出确定性(甚至随机)的选择,但这些选择仅基于当前的董事会状态。

严格来说,在Go中,您还需要避免重复以前的董事会职位。因此,如果将当前的董事会职位用作您的状态,则会违反Markov属性:通过查看过去的董事会职位可以获得更多相关知识。