我是初学者使用statsmodels&我也愿意使用其他基于Python的方法来解决我的问题:
我有一个包含~85个特征的数据集,其中一些特征是高度相关的。 当我运行OLS方法时,我得到了一个有用的“强多重共线性问题”警告,正如我所料。
我之前通过Weka运行此数据,Weka作为回归分类器的一部分,具有eliminateColinearAttributes选项。
我怎样才能做同样的事情 - 让模型选择使用哪些属性而不是将它们全部放在模型中? 谢谢!
答案 0 :(得分:1)
要运行多变量回归,请使用scipy.stats.linregress。查看此nice example,其中有一个很好的解释。
您提到的软件中的eliminateColinearAttributes选项只是该软件中实现的一些算法来解决问题。在这里,你需要自己实现一些迭代算法,基于消除一个具有最高p值的高度相关变量(然后再次运行回归并重复直到多重共线性不存在)。
这里没有唯一的方法,有不同的技巧。从一组高度相关的变量集中手动选择也是一个很好的做法,这些变量可以省略它也是有意义的。