应用错误收集

最优控制问题最早是在1950年代提出的。问题是设计一个控制器来最大化或最小化目标函数。理查德·贝尔曼（Richard Bellman）通过引入贝尔曼方程式来解决该最优控制问题：

其中的价值等于奖励的折扣总和。如果我们第一次迈出第一步，就会得到以下结果：

随后，经典的强化学习基于马尔可夫决策过程，并假设所有状态转换都是已知的。因此，等式变为：

也就是说，总和等于从该状态开始的所有可能转换的总和，乘以获得新状态的奖励。

以上等式以值形式编写。有时，我们希望值也可以是动作的函数，从而创建动作值。上述方程式转换为作用值形式为：

此等式的最大问题是，在现实生活中，过渡概率实际上是未知的。除非问题非常简单，否则不可能知道每个状态的过渡概率。为了解决这个问题，我们通常只取未来折价部分的最大值。也就是说，我们假设我们将来会表现最佳，而不是取所有可能情况的平均值。

但是，在实际情况下，环境可能是高度随机的。因此，在任何状态下对动作值函数的最佳估计就是一个估计。而概率后案例是期望值。因此，给您：

方程式中的奖励符号为t + 1。这主要是由于不同的解释。以上证明仍然适用于您的表示法。简而言之，直到下一个采样时间，您才知道回报。