卡方作为回归的评分函数

时间:2013-11-13 10:37:31

标签: machine-learning regression scikit-learn feature-selection

记录在http://scikit-learn.org/0.9/modules/feature_selection.html中 “警告请注意不要使用带有分类问题的回归评分函数。”

我正在尝试找到回归问题的最佳功能,并使用f_regression作为评分函数。但它非常耗费内存并且我的8GB机器挂起,最后我得到内存错误。

我使用Chi2作为同一问题的评分函数,它的工作速度非常快。想知道警告的反面是否正确?如果没有,我可以使用 Chi2 作为回归问题的评分函数吗?

3 个答案:

答案 0 :(得分:1)

不,你不应该使用Chi2评分函数,因为它没有证明对回归模型的准确性。你必须检查你的f_regression解决方案或使用其他解决方案,如递归消除或PCA(主成分分析)

http://en.wikipedia.org/wiki/Principal_component_analysis

我个人会建议PCA,它会给出非常可靠的结果。

答案 1 :(得分:1)

如果你的问题是回归,我建议你使用LASSO。 Lasso只是标准回归,L1正则化烘焙;这具有将许多特征权重驱动为零的效果。

Scikit has an implementation of Lasso

答案 2 :(得分:1)

χ²检验建立n_classesn_features的列联表。在回归模型中,没有n_classes的概念。使其工作的唯一方法是将y值组合,进行要素选择,然后在原始y和缩减要素集上训练回归模型。在scikit-learn中没有对此的支持,所以你必须自己编程。