Python中文本分类的特征选择

时间:2014-09-10 10:45:26

标签: python text machine-learning scikit-learn

我正在使用scikit-learn库中的Random Forests处理python中的文本分类问题。我想尝试不同的功能选择方法,如信息增益(IG)或双正常分离(BNS),如本paper所述。

似乎scikit中唯一可用的特征选择方法(使用CountVectorizer类)基于文档频率。其他库中是否有其他方法?

1 个答案:

答案 0 :(得分:1)

有一个功能选择模块,具有进行单变量选择或递归功能消除的工具:http://scikit-learn.org/dev/modules/feature_selection.html scikit-learn中没有信息gane或BNS。文档频率不是特征选择方法。