深度学习:为什么随着批量减小,准确性会变得更好?

时间:2018-01-28 00:42:00

标签: tensorflow deep-learning

我对批量大小的理解是规模越小,噪声越大,计算效率越低,但是我开发了一个模型,并且我使用某个数据集,我在其中尝试不同的配置,我只能看到的是随着批量减小(同时保持其余参数不变),精度会变得更好。我尝试了2,4,8,16,32和64的批量大小。我预计准确度将从2-8增加,并且在其他情况下会稳定/振荡,但是与批量减小相比有所改善完全清楚(2倍5倍交叉验证)。

我的问题是,为什么会发生这种情况?发生这种情况时,我能对模型和数据集说些什么呢?

1 个答案:

答案 0 :(得分:1)

这个想法是由于梯度噪声而难以过度拟合。但它不仅在改善。请参见Analysis and Optimization of Convolutional Neural Network Architectures第59页的表5.9。如果批量太小,精度会再次下降。