我正在研究“ House Sales in King County”数据集,比较线性回归,Ridge和Lasso的系数。
我首先进行训练/测试拆分,然后对数据进行标准化,然后训练这三个模型并比较系数。对于大多数训练/测试拆分随机种子,这三个模型的系数在同一范围内,我可以对其进行比较。但是对于一些随机种子,线性回归的某些系数会“爆炸”,从大约10 ^ 4-10 ^ 5的值跳到大约10 ^ 18。
这仅在线性回归模型中的少数几个系数中发生,而ridge和套索的系数不受影响。
我不确定为什么会发生这种情况,有任何提示或指示吗?
答案 0 :(得分:1)
对不起,我的“爆炸”是由于多重共线性造成的。我在那里有以下变量:
显然,平方英尺=平方英尺以上+平方英尺以下。多重共线性使这三个变量的系数疯狂不稳定。这就是为什么添加正则化有帮助的原因。
关于多重共线性危险的伟大警示故事!