应用错误收集

我正在尝试使用Q-learning来对抗2个不同的随机播放器来实现AI播放器..

我不确定Q-learning是否适用于ludo游戏，这就是为什么我对它有点怀疑..

我为游戏定义了11个州。每个州根据其他球员的位置来定义。

我可能采取的行动是6，（受骰子限制）。

理论上我可以有四种不同的状态（每个Ludo令牌一个）哪个可以执行骰子选择的动作，但我只会选择移动具有最高Q（s，a）的令牌并执行动作..

我不知道的是，在更新阶段会发生什么。

我明白我用新值更新了以前的值？..

基于维基的更新是这样的：

我不能得到的是奖励价值与旧价值的不同之处？它是如何定义的，矩阵中的那些值有何不同？