记录在http://scikit-learn.org/0.9/modules/feature_selection.html中 “警告请注意不要使用带有分类问题的回归评分函数。”
我正在尝试找到回归问题的最佳功能,并使用f_regression作为评分函数。但它非常耗费内存并且我的8GB机器挂起,最后我得到内存错误。
我使用Chi2作为同一问题的评分函数,它的工作速度非常快。想知道警告的反面是否正确?如果没有,我可以使用 Chi2 作为回归问题的评分函数吗?
答案 0 :(得分:1)
不,你不应该使用Chi2评分函数,因为它没有证明对回归模型的准确性。你必须检查你的f_regression解决方案或使用其他解决方案,如递归消除或PCA(主成分分析)
http://en.wikipedia.org/wiki/Principal_component_analysis
我个人会建议PCA,它会给出非常可靠的结果。
答案 1 :(得分:1)
如果你的问题是回归,我建议你使用LASSO。 Lasso只是标准回归,L1正则化烘焙;这具有将许多特征权重驱动为零的效果。
答案 2 :(得分:1)
χ²检验建立n_classes
次n_features
的列联表。在回归模型中,没有n_classes
的概念。使其工作的唯一方法是将y
值组合,进行要素选择,然后在原始y
和缩减要素集上训练回归模型。在scikit-learn中没有对此的支持,所以你必须自己编程。