RL中的迷你批次

时间:2018-12-20 07:49:51

标签: reinforcement-learning

我刚刚阅读了Mnih (2013)的论文,并且真的很想知道他谈到使用RMSprop和 32号迷你批次(第6页)的方面。

我对这类强化学习算法的理解是,每次拟合只有1个或至少很少数量的训练样本,并且每次拟合都会更新网络。 而在监督学习中,我拥有多达数百万个样本,并将它们分成多个小批,例如32,并在每次迷你批处理后更新网络。

所以我的问题是:如果一次只将一个样本放入神经网络,那么迷你批次的意义何在?我对这个概念有什么误解吗?

谢谢!

2 个答案:

答案 0 :(得分:0)

您提到的论文介绍了与深度神经网络函数逼近器一起使用时可以稳定Q学习方法的两种机制。其中一种机制称为“体验重播”,它基本上是用于观察体验的内存缓冲区。您可以在第四页末尾的论文中找到说明。您不必将其保存到缓冲区中,而无需从刚刚看到的单一经验中学习。每N次迭代就完成一次学习,您可以从重播缓冲区中随机抽取少量经验。

答案 1 :(得分:0)

Filip提供的答案是正确的。只是为了增加直觉,使用经验重播的原因是去关联RL经历的经验。当使用非线性函数逼近(例如神经网络)时,这是必不可少的。

示例:想象一下,如果您有10天的时间学习化学和数学测试,并且两个测试都在同一天进行。如果您将前5天花在化学上,而将后5天花在数学上,则您会忘记学习的大部分化学。神经网络的行为类似。

enter image description here

通过取消相关体验,可以通过培训数据确定更通用的政策。

在训练神经网络时,我们拥有一批内存(即数据),并且从中随机抽取了32个小批样本,以进行监督学习,就像训练其他任何神经网络一样。