AlphaGo Zero paper提到要注意游戏的对称性(动作值独立于棋盘的旋转和反射),使用随机的二面反射或旋转将生成的状态馈入网络:
展开并评估(图2b)。叶子节点s L 添加到队列中以进行神经网络评估,(d i (p),v)=fθ(di(s L )),其中d i 是从[1..8]中的i随机选择的二面反射或旋转。
我想知道:每个板都可以表示为一个长数字。为什么不采用每个旋转和反射的数字形式,比较它们并选择较小的数字呢? (每次董事会都由网络评估)
我认为这将导致更快的学习速度,因为网络只能关注所有可能状态的1/8。
答案 0 :(得分:1)
一个可能的解释是,如果网络的相对边和角对称地收敛,他们会感兴趣,因此他们可能已经使用此方法来测试该方法本身。
另一个假设原因与“连续性”有关。如果移动一块石头可能会使位置不再正确定向,那么您就必须翻转它,然后突然从初始位置获得的价值和策略数据就不会为视觉上接近但数值翻转的位置提供任何训练益处。 / p>
尽管如此,最终,网络培训不是管道的瓶颈,自玩游戏的产生是瓶颈。通过旋转几圈来乘以生成的位置,那时候感觉就像是免费数据。
尽管如此,他们确实完全摆脱了AlphaZero中的对称变换。同样,我认为这是测试而不是优化(至少在Go中。Chess和Shogi显然是不对称的。)