梯度下降应该给出与拟合回归的最小二乘法完全相同的答案吗?

时间:2016-11-21 19:34:12

标签: machine-learning regression mathematical-optimization gradient-descent

即。 GD的输出是否是LS确定值的近似值,还是具有相同输出的这些等效问题?它可能取决于回归的类型:线性,逻辑等吗?

1 个答案:

答案 0 :(得分:1)

首先,并非所有的回归都是“最小二乘”,所以这个问题只对“最小二乘回归”有意义,对于线性模型,(对于线性模型)转换为线性回归(如果我们添加特定的软约束,则为脊/套索) 。

一旦解决了这个问题,我们就可以解决主要问题 - 基于梯度的技术融合到与普通最小二乘法相同的解决方案。我假设“最小二乘法”是指最小二乘法的闭式解。答案是“在一些假设下,是的”。这些假设如下:

  • 你的学习率足够小,
  • 你执行足够多的迭代,
  • 你有无限精确的算术。

虽然第一个相对容易检查(有定理给你很好的界限,比如L-Lipschitz函数最多为2 / L),剩下的两个是非常随意的 - 迭代次数是无法确定的(但是你可以显示迭代和预期误差之间的关系),无限精度是......好吧......不可能。

类似的事情对于逻辑回归是不正确的,因为它甚至没有封闭形式的解决方案。