我有一个因变量y和6个自变量。我想对其进行线性回归。我使用sklearn库来做到这一点。
问题是我的一些自变量的相关性超过0.5。所以我不能同时将它们放在模型中
我搜索了throw internet,但是没有找到任何选择最佳自变量以绘制线性回归并输出已选择变量的解决方案。
答案 0 :(得分:2)
如果看到自变量之间存在关联。您应该考虑删除它们。
我看到您正在使用scikit-learn。如果您不想手动进行任何功能选择,则可以始终使用scikit-learns feature_selection module中的一种功能选择方法。自动删除功能的方法有很多,您应该交叉验证以确定最适合您问题的功能。
答案 1 :(得分:1)
您可能正在寻找k折验证模型。
这个想法是随机选择您的功能,并有一种方法可以相互验证。
这个想法是通过在数据的(k-1)个分区上选择特征来训练模型。并针对最后一个分区对其进行验证。您对每个分区都这样做,并取平均分数(例如MAE / RMSE)
您的分数是一个比较模型和特征选择的数字