我对如何实现简单的q_learning算法感到困惑。 我指的是这个很好的文档:http://artint.info/html/ArtInt_265.html。
给定的公式是
Q[s,a] ←Q[s,a] + α(r+ γmaxa' Q[s',a'] - Q[s,a])
问题在于状态未知,因为我正在努力学习Flappybird's成功的动作。要获得Q[s,a]
我需要知道Q[s',a']
的值,但如果我不知道下一个状态,我该如何获得Q函数?假设状态是由鸟和最近的管道之间的距离描述的,你将如何计算当前的Q函数?
感谢您的帮助!
答案 0 :(得分:0)
s'
是当前状态。 s
是以前的状态。 max_a' Q[s', a']
是当前状态下最佳动作的值。