应用错误收集

如何将UNO建模为POMDP

时间：2019-04-24 23:47:20

标签： artificial-intelligence reinforcement-learning markov-decision-process

我正在尝试将UNO纸牌游戏建模为部分可观察的马尔可夫决策过程（POMDP）。我做了一点研究，得出的结论是，状态将是纸牌的数量，动作将是打牌还是从看不见的纸牌组中挑选牌。我在制定状态转换和观察模型时面临困难。我认为，该观察模型将取决于过去的行为和观察（历史），但为此，我需要放宽马尔可夫假设。我想知道放松马尔可夫假设是更好的选择吗？此外，我应该如何精确地形成状态和观察模型。谢谢。

1 个答案:

答案 0 :(得分：1)

我认为在POMDP中，状态仍然应该是“全部真相”（所有牌的位置），过渡只是游戏规则（包括其他玩家的策略？！）。这些观察结果当然不应该取决于任何历史，而应该仅取决于状态，否则您将违反马尔可夫假设。 POMDP的意义在于，代理可以通过分析历史记录来获取有关当前状态的信息。不过，我不太确定这是否适用于UNO或如何适用于UNO。如果您知道玩过哪些卡及其顺序，是否仍可以使用历史记录获得信息？可能不会。不能确定，但是即使您使用专为POMDP设计的解决方案，也不能将这款游戏视为POMDP。