AlphaGo零板评估功能使用多个时间步作为输入......为什么?

时间:2017-12-15 19:21:15

标签: neural-network deep-learning artificial-intelligence torch reinforcement-learning

根据AlphaGo Cheat Sheet,AlphaGo Zero使用连续电路板配置序列来编码其游戏状态

理论上,所有必要的信息都包含在最新状态中,但它们包括之前的7种配置。

为什么他们选择注入如此多的复杂性?

他们在听什么?

AlphaGoZero

Game State

1 个答案:

答案 0 :(得分:3)

唯一的原因是因为在所有游戏中 - Go,Chess和Shogi--都有重复规则。这意味着游戏在目前的董事会职位上无法完全观察到。换句话说,可能存在两个相同的位置,具有两个非常不同的评估。例如,在一个Go位置可能会有一个获胜的举动,但是在一个相同的Go位置,该举动要么是非法的,要么在将要获胜的延续中的下一个举动之一创建一个非法的位置。

您可以尝试仅在当前的纸板位置进纸,并仅处理树中的重复。但我认为这会更弱,因为评估函数在某些情况下会出错,如果树的那个分支没有被深入探索到足以纠正问题,那么就会产生视野效应。