artificial-intelligence - 部分可观察的马尔可夫决策过程

操作

可控行动是决策者做出的选择结果。在经典的POMDP虎问题中，有两只门背后隐藏着一只老虎。在每个时间步，决策者可以选择倾听或打开其中一扇门。这种情况下的行动是{听，打开左门，打开右门}。从一个状态到另一个状态的转换功能取决于先前的状态和所选择的动作。

在隐马尔可夫模型（HMM）中，决策者没有任何动作。在老虎问题背景下，这意味着参与者只能在不打开门的情况下收听。在这种情况下，转换函数仅取决于先前的状态，因为没有动作。

有关老虎问题的更多细节，请参阅Kaelbling Littman和Cassandra的1998年POMDP paper，第5.1节。此tutorial还提供了更多介绍性演练。

<强>适应性

你问题的基本直觉是正确的，但可以改进。 POMDP是一类模型，而Q学习是一种解决方案。您的问题的基本区别在于基于模型和无模型的方法。 POMDP是基于模型的，尽管部分可观察性允许额外的不确定性。通过Q学习，可以在无模型环境中应用强化学习。对于非平稳问题，无模型方法将更灵活。话虽如此，根据问题的复杂性，您可以将非平稳性纳入模型本身并将其视为MDP。

在question的答案中，对这些非平稳模型权衡进行了非常详尽的讨论。

最后，将POMDP视为专家系统是正确的。 Mazumdar等（2017）将suggested作为专家系统处理马尔可夫决策过程（MDP）。

部分可观察的马尔可夫决策过程

1 个答案: