我目前正在开发自己的Connect 4 Alpha Go Zero版本。 我很难理解架构的一部分。 他们使用策略头来预测下一步选择哪个动作(最有可能赢得比赛),并使用值头来评估从当前位置开始的动作有多好。
我没有真正的区别。
无论我处于哪种状态,使用MCTS的次数越多,我就能更好地预测哪一步是最有前途的。
我保存了我的MTCS的结果以及游戏的赢/输,以便能够更快地进行部署/根本不做任何事情并选择更好的动作。
但是最后,选择举动和哪个举动最强的概率不是一样吗?
两者都可以帮助我选择要播放的动作,所以为什么我需要两个单独的网络(或者在Alpha Zero中,最后将我的网络分成两个头)?
我希望这很适合,因为这不是我让算法落后于NN