我认为批量大小仅用于提高性能。批量越大,同时计算更多图像来训练我的网。但我意识到,如果我改变批量大小,我的净准确度会变得更好。所以我不明白批量是多少。有人可以解释一下批量大小是多少?
答案 0 :(得分:19)
使用Stochastic-Gradient-Descend (SGD)训练Caffe:也就是说,在每次迭代时,它计算训练数据的参数的(随机)梯度,并在梯度方向上移动(=改变参数)。
现在,如果你写出渐变方程w.r.t.训练数据你会注意到,为了计算梯度完全,你需要在每次迭代时评估所有训练数据 :这是令人望而却步的耗费时间,特别是当训练数据越来越大时
为了克服这一点,SGD以随机方式近似精确梯度,在每次迭代时仅通过采样训练数据的一小部分。这一小部分是批次
因此,批量大小越大,每次迭代的梯度估计越准确。
TL; DR :批量大小会影响每次迭代时估计梯度的准确性,因此更改批量大小会影响优化所采用的“路径”,并可能会改变培训过程的结果。