在线性回归空间中使用渐变下降有什么好处?看起来我们可以通过分析方法解决问题(找到最小成本函数的θ0-n),那么为什么我们仍然希望使用梯度下降来做同样的事情呢?谢谢
答案 0 :(得分:99)
当您使用正规方程分析解决成本函数时,您必须计算:
其中X是输入观测的矩阵,y是输出矢量。这个操作的问题是计算nxn矩阵的倒数的时间复杂度为O(n ^ 3),并且随着n的增加,它可能需要很长时间才能完成。
当n为低(n <1000或n <10000)时,您可以将正规方程视为计算θ的更好选项,但是对于更大的值,梯度下降要快得多,所以唯一的原因是时间:)
答案 1 :(得分:13)
您应该提供有关您问题的更多详细信息 - 您究竟要问的是什么 - 我们是在讨论一维或多维的线性回归吗?简单或一般的?
一般来说,人们为什么要使用GD?
那么分析解决方案呢?好吧,我们做使用它们,你的声明在这里是假的(如果我们一般都在讨论),例如OLS方法是一种封闭的形式,解析解决方案,它被广泛使用。如果你可以使用分析解决方案,它是可以负担得起的计算(因为有时GD只是便宜或更快)然后你可以,甚至应该 - 使用它。
Neverlethles这始终是一些优点和缺点 - 分析解决方案与模型紧密相关,因此如果您计划将来推广/更改模型,实施它们可能效率低下。它们有时效率低于数值近似值,有时候更难实现。如果以上都不是真的 - 你应该使用分析解决方案,人们真的会这样做。
总而言之,如果出现以下情况,则宁可使用GD而不是分析解决方案:
答案 2 :(得分:7)
基本上,原因是:
1.对于大多数非线性回归问题,没有封闭形式的解决方案。
2.即使是线性回归(少数几种可以使用封闭形式解决方案的情况之一),使用该公式可能是不切实际的。以下示例显示了一种可能发生这种情况的方法。
答案 3 :(得分:-1)
其他原因是当你推广线性回归时,梯度下降会立即变得有用,特别是如果问题没有封闭形式的解决方案,例如在Lasso中(它增加了正则化项的总和)权重向量的绝对值)。