连续四场比赛强化学习的最佳算法

时间:2012-01-08 08:13:06

标签: java reinforcement-learning

连续四场游戏中强化学习的最佳算法是什么? 我想构建一个连续四个游戏,使用其中一个RL算法来玩: Q-Learning,MinMax等。

考虑到我使用Java,最好使用的是什么。

2 个答案:

答案 0 :(得分:0)

MinMax非常适合那款游戏。真正的问题是你的欧元函数有多好,以确定某一举动的“价值”是什么。

答案 1 :(得分:0)

MinMax通常不被认为是强化学习算法,但它可能是最好的算法。 (取决于你的意思)Connect 4。

连接4已经solved(在许多不同尺寸的电路板上)已有近三十年了。解算器甚至被用作处理器基准,称为Fhourstones,Java(和C)中的source可以免费使用。

如果您的目标是学习Q学习(以表格形式),REINFORCE或一些更现代的强化学习算法,例如使用神经网络的深度Q学习(DQN)或Action Advantage Actor Critic(A3C)那么毫无疑问,这些都可以成功应用于Connect 4.我推荐一本好书,如Barto&萨顿的强化学习。在撰写本文时,draft of the 2nd edition可以PDF格式免费获得。

然而,如果你的目标只是拥有一名最佳球员,那么你将很难击败Fhourstones的完美表现。