我在某些文本分类任务中尝试使用sklearn.svm.SVC。我知道在使用SVM建模之前执行特征选择是一个有点值得怀疑的尝试,因为当使用完整的特征集时,性能通常会达到峰值。从学术角度来看,这仍然很有趣,看看不同的特征选择方法如何对特征进行不同的排名
经过一番挖掘,我发现在sklearn中已经提供了非常有限的特征选择指标选择,即Chi-2。我只是想知道是否已经在sklearn(或其他地方)实现了其他常用指标,例如IG和BNS,我可以直接用作sklearn.feature_selection.SelectKBest()中的得分函数?
提前感谢您的善意建议。
答案 0 :(得分:2)
InfoGain尚未实施,但我认为@larsmans希望在未来某个时候将它包括在内。我不知道BNS。
如果您愿意,请随时提供。这是贡献指南: