部分可观察的马尔可夫决策过程

时间:2017-11-27 13:28:09

标签: artificial-intelligence probability reinforcement-learning expert-system markov-decision-process

我是马尔可夫过程的新手,我对这个理论有一些基本的(我认为)问题。如果你能帮助我解开以下问题,那将是非常好的:

  1. 在部分可观察马尔可夫决策过程(pomdp)中,可控行为是什么意思?或隐藏马尔可夫状态中没有可控制的动作?
  2. 通过价值或政策迭代计算政策时,我们可以说pomdp是一个专家系统(因为我们对环境建模)吗?而使用 Q-learning 在智能方面是一个更灵活的系统,或者对不断变化的环境的适应性
  3. 谢谢

1 个答案:

答案 0 :(得分:0)

操作

可控行动是决策者做出的选择结果。在经典的POMDP虎问题中,有两只门背后隐藏着一只老虎。在每个时间步,决策者可以选择倾听或打开其中一扇门。这种情况下的行动是{听,打开左门,打开右门}。从一个状态到另一个状态的转换功能取决于先前的状态和所选择的动作。

在隐马尔可夫模型(HMM)中,决策者没有任何动作。在老虎问题背景下,这意味着参与者只能在不打开门的情况下收听。在这种情况下,转换函数仅取决于先前的状态,因为没有动作。

有关老虎问题的更多细节,请参阅Kaelbling Littman和Cassandra的1998年POMDP paper,第5.1节。此tutorial还提供了更多介绍性演练。

<强>适应性

你问题的基本直觉是正确的,但可以改进。 POMDP是一类模型,而Q学习是一种解决方案。您的问题的基本区别在于基于模型和无模型的方法。 POMDP是基于模型的,尽管部分可观察性允许额外的不确定性。通过Q学习,可以在无模型环境中应用强化学习。对于非平稳问题,无模型方法将更灵活。话虽如此,根据问题的复杂性,您可以将非平稳性纳入模型本身并将其视为MDP。

question的答案中,对这些非平稳模型权衡进行了非常详尽的讨论。

最后,将POMDP视为专家系统是正确的。 Mazumdar等(2017)将suggested作为专家系统处理马尔可夫决策过程(MDP)。