封闭式解决方案总是过度拟合吗?

时间:2017-02-09 21:31:31

标签: machine-learning regression linear-regression

因为我们已经关闭了一些机器学习问题的解决方案,比如线性回归。它们具有更高的O(D ^ 3)复杂度(D是从输入中得到的特征数),但使用封闭形式得出的解决方案是否会过度拟合?

  1. 我知道封​​闭式解决方案需要更长的计算能力,这对于大量功能可能是不可行的。
  2. 我也理解梯度下降,随机梯度下降等等。生成足够接近的解决方案,复杂度较低。
  3. 只是想了解,使用封闭式解决方案是否有益?

2 个答案:

答案 0 :(得分:1)

这一般情况并非如此,但在某些情况下在实践中也是如此。

假设您有数百万个观测值和数千个特征,并且您将线性回归拟合到设计矩阵的第一个主成分。这是封闭形式不适合的第一种情况: N远大于P

或者,对于岭回归存在闭合形式的解决方案。它是R,它是solve(crossprod(X) + lambda * diag(rep(1, nrow(x))) %*% t(X) %*% y。交叉验证以选择最佳λ将通常比梯度下降更快。这是第二种情况:封闭形式的解决方案涉及超参数。广义的加法模型也是这样的。

答案 1 :(得分:-1)

是的:简而言之,您已找到该数据集的最佳解决方案。根据定义,人口的样本上的封闭式解决方案将过度拟合该样本。但请注意,如果样本是整个群体,那么您的解决方案必然是最优的。

各种“偷偷摸摸”的解决方案(例如梯度下降)专门用于通过启发式方法在您指定的任意小错误中找到相同的解决方案。这是数值分析的灵魂。 : - )

对于大多数用途,封闭式解决方案只有在您需要精确解决方案的精确性以进一步理论推导时才有用。在某些情况下,预测速度也更快(仅向前传递),因为它的权重要少得多。但是,预测通常受I / O速度的限制,而不受模型复杂性的限制。