因为IDF是一个常数。 一维中的所有值乘以常数。
在SVM Linear内核中,结果会有所不同吗?
答案 0 :(得分:1)
你的初步问题确实没有意义。你混淆了两个不同的世界: 1)TF/IDF: features for text representation 2)SVM - Linear Kernel:SVM最简单的方法(确实用于文本)。
TF和TF / IDF的区别在于是否使用了词语的语料频率。 TF / IDF是一个更好的选择,独立于分类器。
仅使用TF我们并不关心单词是否常见。因此,常见的词语如即使文章没有提供真实的信息,也会获得很大的权重。
在TF / IDF中,一个单词在语料库中的频率越高,它接收的权重就越小。因此,像文章这样的常用词语只能获得较小的权重,但却是罕见的词语,假设它们携带更多信息,获得更大的权重。
N.B。在上文中,“物品”用作它们通常应在预处理步骤中移除的示例。