SVM线性核中TF-IDF与TF的区别

时间:2012-09-19 15:29:29

标签: svm document-classification tf-idf

因为IDF是一个常数。 一维中的所有值乘以常数。

在SVM Linear内核中,结果会有所不同吗?

1 个答案:

答案 0 :(得分:1)

你的初步问题确实没有意义。你混淆了两个不同的世界: 1)TF/IDF: features for text representation 2)SVM - Linear Kernel:SVM最简单的方法(确实用于文本)。

TF和TF / IDF的区别在于是否使用了词语的语料频率。 TF / IDF是一个更好的选择,独立于分类器。

仅使用TF我们并不关心单词是否常见。因此,常见的词语如即使文章没有提供真实的信息,也会获得很大的权重。

在TF / IDF中,一个单词在语料库中的频率越高,它接收的权重就越小。因此,像文章这样的常用词语只能获得较小的权重,但却是罕见的词语,假设它们携带更多信息,获得更大的权重。

N.B。在上文中,“物品”用作它们通常应在预处理步骤中移除的示例。