尽管我已经单独研究了这些概念,但是对于是否可以选择一个或另一个来解决问题还是感到困惑,我是否可以同时使用这两个概念来改善结果?您提供的任何指导将不胜感激。
答案 0 :(得分:0)
我的理解是,梯度下降的成本函数基于整个训练集,而随机梯度下降使用的真实函数的成本要比整个训练集合少得多。
使用哪个以及何时使用的问题基于确定是否有足够的计算能力来计算梯度的确切成本。如果有足够的计算能力和时间,则可以精确计算出它。
如果训练集太大,则随机梯度下降值得尝试。两者都用于测试近似值的质量。
通常,出于相同的原因,我将不会同时使用这两种方法,因为我永远不会平均一个精确值,而是一个近似值。 (例如:1 = 1,但1也约为0.99,所以(1 + 0.99)/ 2 = 0.995)