如何更新双人游戏的Q值

时间:2017-04-07 22:11:22

标签: multiplayer reinforcement-learning q-learning

对于单人游戏,Q值更新非常直观。当前状态和未来状态取决于单个玩家的策略,但对于两个玩家而言,情况并非如此。考虑对手获胜并且游戏终止的场景。如何更新Q值?

1 个答案:

答案 0 :(得分:1)

一种常见的方法是将对手视为环境的一部分,因此状态将被定义为包括对手的位置。您选择一个操作并执行它,修改状态。然后对手采取行动,再次修改状态。然后你的经纪人接收状态素数,这是其先前行动和对手先前行动的结果。

因此,在状态s中您采取行动a,然后对手行动并终止游戏,您将通过{记录从s到终端状态的转换{1}}。