sklearn.feature_selection中除Chi-2之外的特征选择度量

时间:2013-01-25 01:31:19

标签: python machine-learning scikit-learn document-classification

我在某些文本分类任务中尝试使用sklearn.svm.SVC。我知道在使用SVM建模之前执行特征选择是一个有点值得怀疑的尝试,因为当使用完整的特征集时,性能通常会达到峰值。从学术角度来看,这仍然很有趣,看看不同的特征选择方法如何对特征进行不同的排名

经过一番挖掘,我发现在sklearn中已经提供了非常有限的特征选择指标选择,即Chi-2。我只是想知道是否已经在sklearn(或其他地方)实现了其他常用指标,例如IG和BNS,我可以直接用作sklearn.feature_selection.SelectKBest()中的得分函数?

提前感谢您的善意建议。

1 个答案:

答案 0 :(得分:2)

InfoGain尚未实施,但我认为@larsmans希望在未来某个时候将它包括在内。我不知道BNS。

如果您愿意,请随时提供。这是贡献指南:

http://scikit-learn.org/dev/developers/index.html