评估政策和价值网络需要几个订单 比传统搜索启发式更多的计算量。至 有效地将MCTS与深度神经网络结合起来,AlphaGo使用了 异步多线程搜索,在CPU上执行模拟, 并在GPU上并行计算策略和价值网络。决赛 AlphaGo版本使用了40个搜索线程,48个CPU和8个GPU。我们 还实现了利用的AlphaGo分布式版本 多台机器,40个搜索线程,1,202个CPU和176个GPU。该 方法部分提供了异步和分布式的完整细节 MCTS。
我通过以下几种方式了解异步:Node.js的回调样式,异步I / O等......但异步多线程搜索是什么确切意思?我认为在等待GPU返回结果时,它必须与利用CPU有关。