我看过以下视频:https://youtu.be/v9M2Ho9I9Qo?t=49
这是关于为“ GO”创建AI
在0:50时,他谈到要为神经网络提供游戏状态和玩家可能的举动。
我的问题:提供游戏状态和动作的最佳方法是什么?我知道我可以在每次可能的动作之后将所有游戏状态提供给神经网络。但是在视频中,他说他在举动之前将举动和棋盘状态联系在一起。
应该怎么做?
答案 0 :(得分:1)
我认为您需要了解基于策略的方法。在基于策略的方法中,我们试图直接学习将状态映射到动作的策略功能。(策略梯度和行为者批判方法)