与批量,随机和小批量梯度下降混淆

时间:2017-03-19 00:30:19

标签: optimization machine-learning

我正在研究一些卷积神经网络的东西,我一直在阅读这三者之间的差异,并且遇到了一些问题。我正在查看此网站http://sebastianruder.com/optimizing-gradient-descent/

作者在其中说它根据整个数据集的权重计算成本函数的梯度。我对如何应用整个训练数据集感到困惑。对我来说随机性是直观的,因为我将单个图像放入模型中,获得成本函数的预测然后进行优化。如何将多个值应用于小批量和批量梯度下降的成本函数?

谢谢

1 个答案:

答案 0 :(得分:0)

假设您有一个包含10张图像的数据集。

SGD

  1. 一次拍摄1张图片。

  2. 反向传播图像的损耗并更新渐变。

  3. 重复其余9张图像。

批次GD

  1. 一次获取整个数据集-10张图像

  2. 反向传播所有10张图像的损耗,然后更新平均梯度。

MiniBatch GD

  1. 将数据集划分为5个小批量,每个小批量包含2张图像。

  2. 参加小批量比赛1。

  3. 反向传播小批量中的图像损失,然后更新平均值 渐变。

  4. 重复其余4个小批量。