如何在咖啡馆中选择批量大小

时间:2017-04-30 01:47:00

标签: neural-network deep-learning caffe gradient-descent imagenet

我了解更大的批量大小可以提供here更准确的结果。但我不确定哪个批量大小“足够好”。我想更大的批量大小总是会更好,但似乎在某一点上,批量大小的每次增加都只会略微提高准确性。找到最佳批量大小是否有启发式或经验法则?

目前,我有40000个训练数据和10000个测试数据。我的批量大小是默认值,培训为256,测试为50。我正在使用拥有8G内存的NVIDIA GTX 1080。

2 个答案:

答案 0 :(得分:2)

测试时批量大小不会影响准确性,您应该将其设置为可以放入内存的最大值,以便验证步骤缩短时间。

对于列车时间批量大小,你是正确的,更大的批次产生更稳定的训练。但是,批量较大会显着减慢训练速度。此外,每个时期您将有更少的backprop更新。所以你不希望批量太大。使用默认值通常是一个很好的策略。

答案 1 :(得分:2)

有关选择较大批量/较小批量的一些原因,请参阅my masters thesis, page 59。你想看看

  • 时代直到收敛
  • 每个时代的时间:越高越好
  • 得到的模型质量:越低越好(在我的实验中)

批量大小为32对于我的数据集/模型/训练算法是好的。