好的,我基本上了解MCTS如何使用节点选择等。我不明白的是随机推出阶段。 我是否正确地随机模拟未来的游戏步骤直到它在胜负中结束? 对于更复杂的游戏,许多州和可能的行动以及未知的敌人移动,是否需要花费很长时间? 如果你随机推出敌人的动作直到你到达游戏结束,那么随机返回输赢是不是一样好? 如果有人能够在一个简单的例子中解释推出阶段,比如3步或4步游戏,我会很高兴。
提前致谢。
答案 0 :(得分:4)
模拟随机游戏比随机返回赢或输更有信息量。
想象一下TicTacToe板,其中一种颜色不能再赢,但另一种颜色可以。显然随机推出可以揭示这一事实。
此外,通常存在样本返回特定结果的概率的实际信息。你赢得所有随机游戏90%的情况可能比你只获得所有随机游戏的10%的情况更可取。当然,这一般不能说明。只有在播放单个正确的响应时,一个分支才可能包含某个胜利 - 而这个分支可能具有许多可能的失败路径。
对MCTS的一个可能的改进是比随机播放做得更聪明。