应用错误收集

这个问题与Q学习有关。

请考虑以下事项：

循环（吸收）状态J-奖励100从J到J（J是最终状态 - 从I到J的奖励也是100）
伽玛值为1
alpha值0.5

说过渡J到J的Q值已经达到100.新的Q值由下式给出： 100 + 0.5（100 + 1（100）-100）其中Q（最大下一个可能状态）为100，就像你处于状态J一样，为了获得最大可能的下一个Q值，你将循环（所以最大下一个可能是Q价值是目前的 - 100）。这给你一个新的Q值150.这个得出一个合乎逻辑的结论，每次你循环J，Q值上升50，特定的Q值永远不会收敛，这对我来说似乎是错的（这是错的吗？）（其他人的价值观）。我已经做了很多次这个实验，但仍然不确定。如果可以，请澄清以上几点。在我的大学里，我们教过Q学习非常糟糕，我在一个半星期内完成了一个课程。

谢谢！

Q学习算法 - 在循环（吸收）状态下收敛

1 个答案: