algorithm - 蒙特卡洛树搜索：对手在MCTS树边界之前移动

MCTS算法的步骤是：

选择
扩展
模拟
反向传播

我的问题涉及第三步，模拟。我们使用新节点扩展了决策树，并模拟剩余的移动直到游戏结束。此模拟可分为两部分：

转而使用我们的决策树中的政策
为两个玩家设置随机移动（或使用游戏特定的替代默认策略）

分离这两个阶段的MCTS树线的可视化在本出版物的图1中：http://www.ru.is/faculty/yngvi/pdf/FinnssonB09a.pdf

我对第一部分感到困惑。为了模拟游戏，我们首先在第一个节点中采用树策略，然后对手移动，然后我们采取另一个树策略移动，依此类推，直到我们到达算法的第2步中创建的节点。在我们到达树线之前，我们让对手在我们的树木政策行动之间做了什么动作？一个随机移动的对手可以采取行动，阻止我们采取下一个树木政策举措。或者我是否还有其他一些误解？

蒙特卡洛树搜索：对手在MCTS树边界之前移动

1 个答案: