使用SVM时是否需要TF-IDF?

时间:2014-02-16 18:23:25

标签: nlp normalization svm tf-idf text-classification

我正在使用支持向量机对短语进行分类。在使用SVM之前,我理解我应该对短语向量进行某种规范化。一种流行的方法是TF-IDF。

具有最高TF-IDF分数的术语通常是最能描述该文档主题的术语。

但这不正是SVM究竟做了什么吗?对文档最具特色的术语给予最高权重?

提前致谢: - )

1 个答案:

答案 0 :(得分:2)

术语的权重(由SVM分类器指定)可能与该术语与特定类别的相关性成正比关系,也可能不成正比。这取决于分类器的内核以及使用的正则化。 SVM NOT 将权重分配给最能表征单个文档的术语。

术语 - 频率(tf)和逆文档频率(idf)用于编码文档向量中的术语的值。这与SVM分类器无关。