应用错误收集

我目前正在开发自己的Connect 4 Alpha Go Zero版本。我很难理解架构的一部分。他们使用策略头来预测下一步选择哪个动作（最有可能赢得比赛），并使用值头来评估从当前位置开始的动作有多好。

我没有真正的区别。无论我处于哪种状态，使用MCTS的次数越多，我就能更好地预测哪一步是最有前途的。
我保存了我的MTCS的结果以及游戏的赢/输，以便能够更快地进行部署/根本不做任何事情并选择更好的动作。
但是最后，选择举动和哪个举动最强的概率不是一样吗？
两者都可以帮助我选择要播放的动作，所以为什么我需要两个单独的网络（或者在Alpha Zero中，最后将我的网络分成两个头）？

我希望这很适合，因为这不是我让算法落后于NN

了解在NN中拥有策略和价值头的优势

0 个答案: