我正在研究一些卷积神经网络的东西,我一直在阅读这三者之间的差异,并且遇到了一些问题。我正在查看此网站http://sebastianruder.com/optimizing-gradient-descent/。
作者在其中说它根据整个数据集的权重计算成本函数的梯度。我对如何应用整个训练数据集感到困惑。对我来说随机性是直观的,因为我将单个图像放入模型中,获得成本函数的预测然后进行优化。如何将多个值应用于小批量和批量梯度下降的成本函数?
谢谢
答案 0 :(得分:0)
假设您有一个包含10张图像的数据集。
SGD :
一次拍摄1张图片。
反向传播图像的损耗并更新渐变。
重复其余9张图像。
批次GD :
一次获取整个数据集-10张图像
反向传播所有10张图像的损耗,然后更新平均梯度。
MiniBatch GD :
将数据集划分为5个小批量,每个小批量包含2张图像。
参加小批量比赛1。
反向传播小批量中的图像损失,然后更新平均值 渐变。
重复其余4个小批量。