文档分类的最佳特征选择算法

时间:2013-01-02 14:04:21

标签: nlp information-retrieval text-mining tf-idf feature-selection

我正在开展文档分类项目。我正在使用tf-idf和质心算法。但是我需要一本字典来使用那些算法。我已经尝试过为字典提供信息,但我认为它不够满意。您是否有任何关于功能选择算法的建议比信息增益更好?

2 个答案:

答案 0 :(得分:2)

根据我的经验,没有最好的特征选择方法。对于一个数据集很好地工作的算法对于其他数据集可能表现得非常差,因此它主要是一个实验性问题。尝试一下,看看哪个适用于您的问题设置。 George Forman发表了几篇关于这个主题的文章,有空的时候值得一读。

答案 1 :(得分:1)

值得指出的是,在许多情况下,不需要选择特征。只需使用所有单词,使用对大特征空间具有鲁棒性的分类器(例如线性SVM / L1正则逻辑回归)。它要解决的问题要少一些,而且这是你需要明确证明不使用的基准。