标签: machine-learning neural-network deep-learning caffe gradient-descent
我正在努力训练一个非常大的模型。因此,我只能将非常小的批量大小放入GPU内存中。处理小批量大小的结果非常noisy gradient estimations 我该怎么做才能避免这个问题?
答案 0 :(得分:4)
如this post所述,批量大小在理论上不是问题(随机梯度下降的效率已经用一批1号证明)。确保正确实施批处理(样本应随机选取数据)。