algorithm - 棋盘游戏中的蒙特卡洛树搜索 - 如何实施对手移动

我正在研究MCTS算法的实现，在具有完美信息的零和棋盘游戏的背景下。例如。 Chess，Go，Checkers。

据我了解，在算法的每次迭代中，有四个步骤：选择，扩展，模拟和反向传播。

我的问题是关于对手动作的实施，应该如何在树中呈现，以及如何在每个阶段实施。

例如，让我们想象一下GO游戏，我们（黑色）正在玩AI（白色）。当黑色从根节点s ₀创建一个_b动作时，然后转为白色以使动作成为_w。

我最初的想法是每个动作都会产生一个新的状态。所以s ₀ - ＆gt; a _b - ＆gt; s ₁ - ＆gt; a _w - ＆gt; s ₂，其中每个s状态代表一个节点。但是，这会影响MCTS中的选择过程。在这种情况下，不会MCTS倾向于探索不好的_w动作吗？因为这将为黑人带来更好的奖励。

另一种解决方案我是将动作组合到一个节点中。所以s ₀ - ＆gt; a _b - ＆gt; a _w - ＆gt;小号<子> 1 。但是，这会使决策变得更加困难，因为现在每个根级别操作都与多个不同的节点相关联。

是否有任何框架表明对手应该如何在MCTS中代表？任何帮助将不胜感激。

编辑1： 由于我们将在上面的示例中玩黑色，因此每次模拟结束时的奖励功能将与黑色相关。例如。如果黑方在游戏结束时获胜，则奖励将通过所有节点（黑色和白色节点）进行备份。我的期望是白色节点（允许黑色获胜）具有高状态值。

但也许我应该在做反向传播时放弃奖励？例如。如果黑色获胜，则黑色节点为1，白色节点为-1。这样，选择功能保持不变。这是正确的吗？