我正在使用scikit-learn库中的Random Forests处理python中的文本分类问题。我想尝试不同的功能选择方法,如信息增益(IG)或双正常分离(BNS),如本paper所述。
似乎scikit中唯一可用的特征选择方法(使用CountVectorizer类)基于文档频率。其他库中是否有其他方法?
答案 0 :(得分:1)
有一个功能选择模块,具有进行单变量选择或递归功能消除的工具:http://scikit-learn.org/dev/modules/feature_selection.html scikit-learn中没有信息gane或BNS。文档频率不是特征选择方法。