为什么余弦相似度和TF-IDF一起使用?

时间:2016-02-09 20:27:53

标签: data-mining text-mining tf-idf cosine-similarity linguistics

  

TF-IDFCosine Similarity是常用的组合   文本聚类。每个文档由TF-IDF的向量表示   权重。

这就是我的教科书所说的。

使用余弦相似度,您可以计算这些文档之间的相似性。

但为什么这些技巧一起使用呢? 有什么好处?

例如还可以使用Jaccard Similarity吗?

我知道, 如何运作,但我想知道,为什么正是这些技巧。

1 个答案:

答案 0 :(得分:4)

TF-IDF是加权

余弦是衡量使用的。

你可以在没有加权的情况下使用余弦,但结果通常会更糟。 Jaccard在套装上工作 - 如果不将它变成其他东西而不使其与余弦相同,那么如何使用重量并不明显。