应用错误收集

AlphaGo零板评估功能使用多个时间步作为输入......为什么？

时间：2017-12-15 19:21:15

标签： neural-network deep-learning artificial-intelligence torch reinforcement-learning

根据AlphaGo Cheat Sheet，AlphaGo Zero使用连续电路板配置序列来编码其游戏状态。

理论上，所有必要的信息都包含在最新状态中，但它们包括之前的7种配置。

为什么他们选择注入如此多的复杂性？

他们在听什么？

AlphaGoZero

1 个答案:

答案 0 :(得分：3)

唯一的原因是因为在所有游戏中 - Go，Chess和Shogi--都有重复规则。这意味着游戏在目前的董事会职位上无法完全观察到。换句话说，可能存在两个相同的位置，具有两个非常不同的评估。例如，在一个Go位置可能会有一个获胜的举动，但是在一个相同的Go位置，该举动要么是非法的，要么在将要获胜的延续中的下一个举动之一创建一个非法的位置。

您可以尝试仅在当前的纸板位置进纸，并仅处理树中的重复。但我认为这会更弱，因为评估函数在某些情况下会出错，如果树的那个分支没有被深入探索到足以纠正问题，那么就会产生视野效应。