我想使用特征选择来查找文档中对二进制分类任务最有用的术语。
我一直在四处寻找:
这提到了相互信息和卡方测试指标
http://nlp.stanford.edu/IR-book/html/htmledition/feature-selection-1.html
MATLAB还有许多功能:
http://www.mathworks.com/help/toolbox/stats/brj0qbu.html
Feature Selection in MATLAB
在上述内容中,relieff和rankfeatures看起来很有希望。
我不知道我的数据是否遵循正态分布。有关哪种技术表现最好的想法?你会建议更新的方法吗?重点是提高分类准确性。
谢谢!
答案 0 :(得分:1)
由于答案很大程度上取决于数据的性质,我建议您使用多个选项,可能使用保留集进行验证。 最简单的方法可能是使用Weka或RapidMiner进行试验。从他们提供的众多选项中进行选择,您可能会熟悉其他几种方法。
话虽如此,我发现Mutual Information / Infogain对各种各样的问题都有用。