应用错误收集

首先，您应该知道在强化学习中存在两种任务，一种是代理 - 环境交互自然地分解为一系列单独的剧集（剧集任务），另一种是其中没有（继续）任务）[Sutton book ref.]。

代理人的目标是最大化其收到的奖励总额（在模拟或真实环境中）。这意味着最大化不是立即奖励，而是长期中的累积奖励。

在剧集任务的情况下，每集通常具有不同的持续时间（例如，如果每集都是国际象棋游戏，则每个游戏通常以不同数量的动作结束）。

奖励功能不会改变，但代理人回收的奖励会根据所采取的行动而改变。在Q学习算法中，代理在每个步骤之后更新Q函数（不是在每个周期/剧集的开始时）。

根据您的定义，n被认为是每集的步数（如前所述，可以从一集到另一集不等）。总步数是所有剧集中n的总和。术语“迭代”＆＃39;也许是指某些论文/书籍中的剧集数量，因此了解情境是必要的。

执行所选操作后执行Q功能的更新。请注意，代理需要执行当前操作以观察奖励和下一个状态。

奖励功能不是真实奖励的近似值。没有真正的奖励。奖励功能由用户设计以告知＆＃39;代理人的目标是什么。在Sutton和Barto书中再次讨论这个话题：Section 3.2 Goals and Rewards。