我正在使用人工神经网络实施奥赛罗。当我阅读文档(here,第19页)时,我不明白一些观点。 他们计算输出: image 我不知道他们是否计算了这个,我的AI如何知道游戏中的法律动作选择最佳法律行动。那输出只是一个浮点数(我想是这样)以及如何使用它?
答案 0 :(得分:3)
它非常简单:神经网络是一个价值网络(而不是政策网络)。此价值网络将董事会状态作为输入,并计算一些描述该职位有多好的分数。它是所有基于MinMax的游戏AI的基本构建块,通常称为评估功能。 (策略网络输出将给出所有可能移动的概率分布)。
所以NN会给你这个分数。然后,您可以将此分数与某些选择的算法结合起来。 MinMax(几乎所有的Chess-AIs),MCTS(AlphaGo)是最常见的。
MinMax的基本思想:发挥作用,oponnent发挥作用,......,......,用你的NN评估 - >对所有可能的组合执行此操作并使用MinMax规则传播。使用此NN只能进行几次(半移动)。但它对奥赛罗来说非常强大,并且很容易实现。
MCTS的基本思想:随机移动,随机移动,...直到获胜者 - >建立胜利者统计。现在比较所有可能的平均分数"第一"移动。选择最好。更难以将NN纳入启发式。
您提到的计算只是神经网络中的经典规则,用于定义激活和密集层。
我没有读过这篇论文,但是很难训练和准备你的NN。您需要提供一些数据。也许它会受到监督(如果你有历史游戏;更容易),也许是无人监督(Q-learning and co。)。没有经验,这将很难做到。
我确实认为我知道所需的所有理论,但我仍然没有用其他(随机)游戏做到这一点,因为自相关和co有许多问题。还需要进行大量的超参数调整。
这个项目有点复杂,有很多陷阱。请确保您了解您想要尝试的内容。它看起来很像你缺少基础知识。博弈论(Min-max),AI /学习理论(MCTS,Markov-Decision-Processes,Q-Learning ...),NN(NN的基本内部)。