Question

我对如何实现简单的q_learning算法感到困惑。我指的是这个很好的文档：http://artint.info/html/ArtInt_265.html。

给定的公式是

Q[s,a] ←Q[s,a] + α(r+ γmaxa' Q[s',a'] - Q[s,a])

问题在于状态未知，因为我正在努力学习Flappybird's成功的动作。要获得Q[s,a]我需要知道Q[s',a']的值，但如果我不知道下一个状态，我该如何获得Q函数？假设状态是由鸟和最近的管道之间的距离描述的，你将如何计算当前的Q函数？

感谢您的帮助！

Answer 1

s'是当前状态。 s是以前的状态。 max_a' Q[s', a']是当前状态下最佳动作的值。