Q学习计算:状态未知

时间:2014-12-06 06:24:42

标签: machine-learning reinforcement-learning

我对如何实现简单的q_learning算法感到困惑。 我指的是这个很好的文档:http://artint.info/html/ArtInt_265.html

给定的公式是

Q[s,a] ←Q[s,a] + α(r+ γmaxa' Q[s',a'] - Q[s,a])

问题在于状态未知,因为我正在努力学习Flappybird's成功的动作。要获得Q[s,a]我需要知道Q[s',a']的值,但如果我不知道下一个状态,我该如何获得Q函数?假设状态是由鸟和最近的管道之间的距离描述的,你将如何计算当前的Q函数?

感谢您的帮助!

1 个答案:

答案 0 :(得分:0)

s'是当前状态。 s是以前的状态。 max_a' Q[s', a']是当前状态下最佳动作的值。