\begin{equation}
Q_{t+1}(s_t,a_t) = Q_{t}(s_t,a_t) +\alpha
(R_{t+1} + \gamma * \max(Q_t(s_{t+1}, a)) - Q_t(s_t, a_t))
\end{equation}
在上面的等式中,有一个术语max(Q_t(s_{t+1},a))
现在说,在状态s_t
中执行操作后会产生s _{t+1}
。 s_ {t + 1}中没有可用的移动。游戏以平局结束,这是什么max(Q_t(s_{t+1},a))
呢?