根据AlphaGo Cheat Sheet,AlphaGo Zero使用连续电路板配置序列来编码其游戏状态。
理论上,所有必要的信息都包含在最新状态中,但它们包括之前的7种配置。
为什么他们选择注入如此多的复杂性?
他们在听什么?
答案 0 :(得分:3)
唯一的原因是因为在所有游戏中 - Go,Chess和Shogi--都有重复规则。这意味着游戏在目前的董事会职位上无法完全观察到。换句话说,可能存在两个相同的位置,具有两个非常不同的评估。例如,在一个Go位置可能会有一个获胜的举动,但是在一个相同的Go位置,该举动要么是非法的,要么在将要获胜的延续中的下一个举动之一创建一个非法的位置。
您可以尝试仅在当前的纸板位置进纸,并仅处理树中的重复。但我认为这会更弱,因为评估函数在某些情况下会出错,如果树的那个分支没有被深入探索到足以纠正问题,那么就会产生视野效应。