应用错误收集

在DeepMind公司的DQN论文中，每个步骤有两个循环，一个循环用于播放情节，一个循环用于运行时间（一个循环用于训练，一个循环用于不同的运行时间）。我说的对吗？

既然如此，除了初始化和重置为第一步条件之外，外循环什么都不做，它们有什么区别？

例如，在案例1中，如果我们运行1000集和400个时间步长，那么在案例2中，如果我们运行4000集和100个时间步长，应该有什么不同？

（它们的区别是第二个有更多机会摆脱局部最小值或类似的东西？还是两者相同？）

另一个问题是在哪里研究更新体验重放的情况？

第一个问题：答案是肯定的，有两个循环，但确实有所不同。

您必须考虑情节的真正含义。在大多数情况下，我们可以将每个情节视为一个“游戏”。一个“游戏”需要结束。我们需要尽全力使每个游戏在一个情节的长度内结束（想象一下，如果您不能摆脱迷宫游戏，可以学到什么）。 DQN的Q值是“当前奖励” +“折后的未来奖励”的近似值，而您需要知道将来何时结束才能做出更好的近似值。

因此，假设我们通常需要200步才能完成游戏，那么100步的情节与400步的情节有很大的差异。

对于体验重播更新，它会在每个时间步中发生。我不明白你的要求。如果您能详细解释您的问题，我想我可以回答。

DQN中的剧集效果和时间之间的差异以及更新体验重播的位置

1 个答案: