吸收状态的Q值

时间:2016-06-13 07:16:00

标签: reinforcement-learning q-learning

\begin{equation}
​Q_{t+1}(s_t,a_t) = Q_{t}(s_t,a_t) +\alpha
(R_{t+1} + \gamma * \max(Q_t(s_{t+1}, a)) - Q_t(s_t, a_t))
\end{equation}

在上面的等式中,有一个术语max(Q_t(s_{t+1},a)) 现在说,在状态s_t中执行操作后会产生s _{t+1}。 s_ {t + 1}中没有可用的移动。游戏以平局结束,这是什么max(Q_t(s_{t+1},a))呢?

1 个答案:

答案 0 :(得分:2)

在V和Q函数中,终端(也称为吸收)状态的值根据定义为0,因为它可以在Rich Sutton的书的Section 3.7中阅读:

enter image description here