应用错误收集

你不需要猜测奖励。奖励是环境的反馈，奖励是环境的参数。算法在代理只能观察反馈，状态空间和动作空间的情况下工作。

Q学习和TD的关键思想是异步随机近似，其中我们使用长期奖励期望的噪声评估来估计Bellman算子的不动点。

例如，如果我们想要估计期望高斯分布，那么我们可以对其进行采样和平均。

强化学习是针对AI代理没有关于其所在世界的信息的问题。因此，强化学习不仅可以为您提供每个州的政策/最佳行动，还可以在完全异国的环境中导航（没有知道什么行动将导致哪个结果状态）并学习这个新环境的参数。这些是基于模型的强化学习算法

现在Q学习和时间差异学习是无模型强化学习算法。意思是，AI代理与基于模型的Algo做同样的事情，但它不必学习它所运行的世界的模型（转移概率之类的东西）。通过多次迭代，它提出了每个状态的映射在该状态下执行的最佳操作。

现在回答你的问题，你不必猜测不同州的奖励。最初，当代理对环境不熟悉时，它只选择从其所处状态执行的随机操作并将其提供给模拟器。模拟器基于转换函数返回该状态动作对的结果状态，并返回处于该状态的奖励。

模拟器类似于现实世界中的自然。例如，你发现世界上不熟悉的东西，你会做一些动作，比如触摸它，如果事情结果是一个热门的对象大自然以痛苦的形式给予奖励，这样下次你知道当你发生什么时尝试这个动作。在编程时，重要的是要注意模拟器的工作对于试图学习环境的AI代理是不可见的。

现在，根据代理人所感知的奖励，它会支持它的Q值（在Q-Learning的情况下）或效用值（在TD-Learning的情况下）。在多次迭代中，这些Q值收敛，您可以根据状态 - 动作对的Q值为每个状态选择最佳动作。