应用错误收集

如何更新双人游戏的Q值

时间：2017-04-07 22:11:22

标签： multiplayer reinforcement-learning q-learning

对于单人游戏，Q值更新非常直观。当前状态和未来状态取决于单个玩家的策略，但对于两个玩家而言，情况并非如此。考虑对手获胜并且游戏终止的场景。如何更新Q值？

1 个答案:

答案 0 :(得分：1)

一种常见的方法是将对手视为环境的一部分，因此状态将被定义为包括对手的位置。您选择一个操作并执行它，修改状态。然后对手采取行动，再次修改状态。然后你的经纪人接收状态素数，这是其先前行动和对手先前行动的结果。

因此，在状态s中您采取行动a，然后对手行动并终止游戏，您将通过{记录从s到终端状态的转换{1}}。