Q学习卢多游戏?

时间:2016-05-19 14:46:12

标签: c++ q-learning

我正在尝试使用Q-learning来对抗2个不同的随机播放器来实现AI播放器..

我不确定Q-learning是否适用于ludo游戏,这就是为什么我对它有点怀疑..

我为游戏定义了11个州。每个州根据其他球员的位置来定义。

我可能采取的行动是6,(受骰子限制)。

理论上我可以有四种不同的状态(每个Ludo令牌一个) 哪个可以执行骰子选择的动作,但我只会选择移动具有最高Q(s,a)的令牌并执行动作..

我不知道的是,在更新阶段会发生什么。

我明白我用新值更新了以前的值?..

基于维基的更新是这样的:

enter image description here

我不能得到的是奖励价值与旧价值的不同之处? 它是如何定义的,矩阵中的那些值有何不同?

1 个答案:

答案 0 :(得分:0)

奖励是为进行某项行动而给予的奖励,旧的q值是q-table中被选为行动的值,在给定状态下最具吸引力。此处的奖励将更新该条目,以便该算法将来知道该移动是受益还是结果变得更糟。