蒙特卡洛树搜索:对手在MCTS树边界之前移动

时间:2017-06-23 19:21:44

标签: algorithm artificial-intelligence montecarlo

MCTS算法的步骤是:

  1. 选择
  2. 扩展
  3. 模拟
  4. 反向传播
  5. 我的问题涉及第三步,模拟。我们使用新节点扩展了决策树,并模拟剩余的移动直到游戏结束。此模拟可分为两部分:

    1. 转而使用我们的决策树中的政策
    2. 为两个玩家设置随机移动(或使用游戏特定的替代默认策略)
    3. 分离这两个阶段的MCTS树线的可视化在本出版物的图1中:http://www.ru.is/faculty/yngvi/pdf/FinnssonB09a.pdf

      我对第一部分感到困惑。为了模拟游戏,我们首先在第一个节点中采用树策略,然后对手移动,然后我们采取另一个树策略移动,依此类推,直到我们到达算法的第2步中创建的节点。在我们到达树线之前,我们让对手在我们的树木政策行动之间做了什么动作?一个随机移动的对手可以采取行动,阻止我们采取下一个树木政策举措。或者我是否还有其他一些误解?

1 个答案:

答案 0 :(得分:0)

新节点位于决策树的底部。此决策树代表两个玩家的移动。当您在树中的节点时,树包含以该位置结束的精确移动序列。

根据播出步骤模拟剩余的动作。

在实践中,计算机通常不需要在第一阶段继续模拟移动。相反,它只会缓存节点上的位置,然后可以从该点开始重复播放模拟。