我正在尝试使用Q-learning来对抗2个不同的随机播放器来实现AI播放器..
我不确定Q-learning是否适用于ludo游戏,这就是为什么我对它有点怀疑..
我为游戏定义了11个州。每个州根据其他球员的位置来定义。
我可能采取的行动是6,(受骰子限制)。
理论上我可以有四种不同的状态(每个Ludo令牌一个) 哪个可以执行骰子选择的动作,但我只会选择移动具有最高Q(s,a)的令牌并执行动作..
我不知道的是,在更新阶段会发生什么。
我明白我用新值更新了以前的值?..
基于维基的更新是这样的:
我不能得到的是奖励价值与旧价值的不同之处? 它是如何定义的,矩阵中的那些值有何不同?
答案 0 :(得分:0)
奖励是为进行某项行动而给予的奖励,旧的q值是q-table中被选为行动的值,在给定状态下最具吸引力。此处的奖励将更新该条目,以便该算法将来知道该移动是受益还是结果变得更糟。