特定火车/测试段的线性回归系数“爆炸”

时间:2020-09-23 11:25:12

标签: python scikit-learn linear-regression

我正在研究“ House Sales in King County”数据集,比较线性回归,Ridge和Lasso的系数。

我首先进行训练/测试拆分,然后对数据进行标准化,然后训练这三个模型并比较系数。对于大多数训练/测试拆分随机种子,这三个模型的系数在同一范围内,我可以对其进行比较。但是对于一些随机种子,线性回归的某些系数会“爆炸”,从大约10 ^ 4-10 ^ 5的值跳到大约10 ^ 18。

这仅在线性回归模型中的少数几个系数中发生,而ridge和套索的系数不受影响。

我不确定为什么会发生这种情况,有任何提示或指示吗?

1 个答案:

答案 0 :(得分:1)

对不起,我的“爆炸”是由于多重共线性造成的。我在那里有以下变量:

  • sqft_living:居住空间的平方英尺
  • sqft_above:居住空间(不包括地下室)的平方英尺
  • sqft_below:地下室的平方英尺

显然,平方英尺=平方英尺以上+平方英尺以下。多重共线性使这三个变量的系数疯狂不稳定。这就是为什么添加正则化有帮助的原因。

关于多重共线性危险的伟大警示故事!