如何在二进制文档分类中找到最具判别力的术语?

时间:2011-10-26 17:26:36

标签: document-classification feature-selection

我想使用特征选择来查找文档中对二进制分类任务最有用的术语。

我一直在四处寻找:
这提到了相互信息和卡方测试指标 http://nlp.stanford.edu/IR-book/html/htmledition/feature-selection-1.html

MATLAB还有许多功能:
http://www.mathworks.com/help/toolbox/stats/brj0qbu.html
Feature Selection in MATLAB
在上述内容中,relieff和rankfeatures看起来很有希望。

我不知道我的数据是否遵循正态分布。有关哪种技术表现最好的想法?你会建议更新的方法吗?重点是提高分类准确性。

谢谢!

1 个答案:

答案 0 :(得分:1)

由于答案很大程度上取决于数据的性质,我建议您使用多个选项,可能使用保留集进行验证。 最简单的方法可能是使用WekaRapidMiner进行试验。从他们提供的众多选项中进行选择,您可能会熟悉其他几种方法。

话虽如此,我发现Mutual Information / Infogain对各种各样的问题都有用。