Question

\begin{equation}
Q_{t+1}(s_t,a_t) = Q_{t}(s_t,a_t) +\alpha
(R_{t+1} + \gamma * \max(Q_t(s_{t+1}, a)) - Q_t(s_t, a_t))
\end{equation}

在上面的等式中，有一个术语max(Q_t(s_{t+1},a)) 现在说，在状态s_t中执行操作后会产生s _{t+1}。 s_ {t + 1}中没有可用的移动。游戏以平局结束，这是什么max(Q_t(s_{t+1},a))呢？

Answer 1

在V和Q函数中，终端（也称为吸收）状态的值根据定义为0，因为它可以在Rich Sutton的书的Section 3.7中阅读：