使用针对多类问题的过滤器进行特征选择:如果许多特征强烈预测少数类怎么办?

时间:2019-02-07 10:37:13

标签: python scikit-learn feature-selection

我正在对100多个类进行文本分类。首先,我想使用过滤器方法(互信息或chi2)进行特征选择。

我计划使用sklearn.feature_selection.SelectPercentile,但现在我想知道:根据文章A Pitfall and Solution in Multi-Class Feature Selection for Text Classification,如果我的某些功能对某些班级具有较强的预测能力,但得分较低,则这种方法的效果应不佳在其他类别中的chi2 / MI值。

我该如何实现一个程序,让每个班级轮流为该班级选择最相关的功能?已经在Python中以某种方式实现了吗?

0 个答案:

没有答案