在DeepMind公司的DQN论文中,每个步骤有两个循环,一个循环用于播放情节,一个循环用于运行时间(一个循环用于训练,一个循环用于不同的运行时间)。我说的对吗?
既然如此,除了初始化和重置为第一步条件之外,外循环什么都不做,它们有什么区别?
例如,在案例1中,如果我们运行1000集和400个时间步长,那么在案例2中,如果我们运行4000集和100个时间步长,应该有什么不同?
(它们的区别是第二个有更多机会摆脱局部最小值或类似的东西?还是两者相同?)
另一个问题是在哪里研究更新体验重放的情况?
答案 0 :(得分:0)
第一个问题:答案是肯定的,有两个循环,但确实有所不同。
您必须考虑情节的真正含义。在大多数情况下,我们可以将每个情节视为一个“游戏”。一个“游戏”需要结束。我们需要尽全力使每个游戏在一个情节的长度内结束(想象一下,如果您不能摆脱迷宫游戏,可以学到什么)。 DQN的Q值是“当前奖励” +“折后的未来奖励”的近似值,而您需要知道将来何时结束才能做出更好的近似值。
因此,假设我们通常需要200步才能完成游戏,那么100步的情节与400步的情节有很大的差异。
对于体验重播更新,它会在每个时间步中发生。我不明白你的要求。如果您能详细解释您的问题,我想我可以回答。