我正在尝试将UNO纸牌游戏建模为部分可观察的马尔可夫决策过程(POMDP)。我做了一点研究,得出的结论是,状态将是纸牌的数量,动作将是打牌还是从看不见的纸牌组中挑选牌。我在制定状态转换和观察模型时面临困难。我认为,该观察模型将取决于过去的行为和观察(历史),但为此,我需要放宽马尔可夫假设。我想知道放松马尔可夫假设是更好的选择吗?此外,我应该如何精确地形成状态和观察模型。谢谢。
答案 0 :(得分:1)
我认为在POMDP中,状态仍然应该是“全部真相”(所有牌的位置),过渡只是游戏规则(包括其他玩家的策略?!)。这些观察结果当然不应该取决于任何历史,而应该仅取决于状态,否则您将违反马尔可夫假设。 POMDP的意义在于,代理可以通过分析历史记录来获取有关当前状态的信息。不过,我不太确定这是否适用于UNO或如何适用于UNO。如果您知道玩过哪些卡及其顺序,是否仍可以使用历史记录获得信息?可能不会。不能确定,但是即使您使用专为POMDP设计的解决方案,也不能将这款游戏视为POMDP。