Q学习算法 - 在循环(吸收)状态下收敛

时间:2011-02-25 01:12:21

标签: reinforcement-learning

这个问题与Q学习有关。

请考虑以下事项:

  1. 循环(吸收)状态J-奖励100从J到J(J是最终状态 - 从I到J的奖励也是100)
  2. 伽玛值为1
  3. alpha值0.5
  4. 说过渡J到J的Q值已经达到100.新的Q值由下式给出: 100 + 0.5(100 + 1(100)-100)其中Q(最大下一个可能状态)为100,就像你处于状态J一样,为了获得最大可能的下一个Q值,你将循环(所以最大下一个可能是Q价值是目前的 - 100)。这给你一个新的Q值150.这个得出一个合乎逻辑的结论,每次你循环J,Q值上升50,特定的Q值永远不会收敛,这对我来说似乎是错的(这是错的吗? )(其他人的价值观)。我已经做了很多次这个实验,但仍然不确定。如果可以,请澄清以上几点。在我的大学里,我们教过Q学习非常糟糕,我在一个半星期内完成了一个课程。

    谢谢!

1 个答案:

答案 0 :(得分:1)

根据Wikipedia,伽玛必须严格小于一。