我刚刚阅读了Mnih (2013)的论文,并且真的很想知道他谈到使用RMSprop和 32号迷你批次(第6页)的方面。
我对这类强化学习算法的理解是,每次拟合只有1个或至少很少数量的训练样本,并且每次拟合都会更新网络。 而在监督学习中,我拥有多达数百万个样本,并将它们分成多个小批,例如32,并在每次迷你批处理后更新网络。
所以我的问题是:如果一次只将一个样本放入神经网络,那么迷你批次的意义何在?我对这个概念有什么误解吗?
谢谢!
答案 0 :(得分:0)
您提到的论文介绍了与深度神经网络函数逼近器一起使用时可以稳定Q学习方法的两种机制。其中一种机制称为“体验重播”,它基本上是用于观察体验的内存缓冲区。您可以在第四页末尾的论文中找到说明。您不必将其保存到缓冲区中,而无需从刚刚看到的单一经验中学习。每N次迭代就完成一次学习,您可以从重播缓冲区中随机抽取少量经验。
答案 1 :(得分:0)