这个问题与Q学习有关。
请考虑以下事项:
说过渡J到J的Q值已经达到100.新的Q值由下式给出: 100 + 0.5(100 + 1(100)-100)其中Q(最大下一个可能状态)为100,就像你处于状态J一样,为了获得最大可能的下一个Q值,你将循环(所以最大下一个可能是Q价值是目前的 - 100)。这给你一个新的Q值150.这个得出一个合乎逻辑的结论,每次你循环J,Q值上升50,特定的Q值永远不会收敛,这对我来说似乎是错的(这是错的吗? )(其他人的价值观)。我已经做了很多次这个实验,但仍然不确定。如果可以,请澄清以上几点。在我的大学里,我们教过Q学习非常糟糕,我在一个半星期内完成了一个课程。
谢谢!