标签: deep-learning reinforcement-learning montecarlo monte-carlo-tree-search
阅读完《 Deep Mind's Alpha Zero》一书后,我了解到我们正在构建一棵树,并在每次看到新节点时向该树中添加一个新节点。对于具有如此巨大的状态空间和如此长的训练时间的GO(甚至CHESS)之类的游戏,我们绝对应该超过此类树的任何实际内存大小。 但据我所知,这些算法已经实际实现。我的理解力在哪里?