我正在对100多个类进行文本分类。首先,我想使用过滤器方法(互信息或chi2)进行特征选择。
我计划使用sklearn.feature_selection.SelectPercentile
,但现在我想知道:根据文章A Pitfall and Solution in Multi-Class Feature Selection for Text Classification,如果我的某些功能对某些班级具有较强的预测能力,但得分较低,则这种方法的效果应不佳在其他类别中的chi2 / MI值。
我该如何实现一个程序,让每个班级轮流为该班级选择最相关的功能?已经在Python中以某种方式实现了吗?