对于凸优化,就像逻辑回归一样
例如,我有100个训练样本。在mini batch gradient decent
中,我将批量大小设置为10
经过10次mini batch gradient decent
更新后。 我可以通过gradient decent
次更新获得相同的结果吗?
对于非凸优化,如神经网络
我知道mini batch gradient decent
有时可以避免一些局部的最佳选择。 但他们之间是否有任何固定的关系。
答案 0 :(得分:6)
当我们说批量梯度下降时,它会使用所有数据更新参数。下面是批量梯度下降的图示。注意批量梯度下降的每次迭代涉及计算整个训练数据集上的损失函数的梯度的平均值。在图中,-gamma
是学习率的负值。
当批量大小为1时,称为随机梯度下降(GD)。
当您将批量大小设置为10(我假设总训练数据大小>> 10)时,此方法称为迷你批次随机GD,这是真正的随机GD和批量GD(使用全部)之间的折衷一次更新时的训练数据)。迷你批次的表现优于真正的随机梯度下降,因为当每个步骤计算的梯度使用更多训练样例时,我们通常会看到更平滑的收敛。以下是SGD的说明。在此在线学习设置中,更新的每次迭代都包括从外部世界中选择随机训练实例(z_t
)并更新参数w_t
。
此处包含的两个数字来自paper。
来自wiki:
利用随机梯度下降的收敛性进行了分析 凸最小化理论和随机近似理论。 简而言之,当学习率\ alpha适当减少时 速率,并受相对温和的假设,随机梯度 当目标时,下降几乎肯定会达到全球最小值 函数是凸的或伪凸的,否则几乎收敛 肯定是当地的最低限度。这实际上是由此产生的结果 Robbins-Siegmund定理。
关于你的问题:
[convex case] Can I get the same result with one times gradient decent updating?
如果“相同结果”的含义“收敛”到全局最小值,则为YES。这是由L'Oon Bottou在paper批准的。无论是SGD还是小批量SGD几乎肯定会收敛到全球最低标准。请注意,我们几乎肯定地说:
然而,很明显,任何在线学习算法都可以 通过一致选择非常不可能的例子来误导。有 因此没有希望证明这个算法总是收敛。该 那么最好的结果就是几乎可以肯定的收敛 假设算法以概率1收敛于解。
对于非凸的情况,在同一篇论文(第5节)中也证明了随机或小批量几乎肯定会收敛到局部最小值。