TF-IDF
和Cosine Similarity
是常用的组合 文本聚类。每个文档由TF-IDF的向量表示 权重。
这就是我的教科书所说的。
使用余弦相似度,您可以计算这些文档之间的相似性。
但为什么这些技巧一起使用呢? 有什么好处?
例如还可以使用Jaccard Similarity吗?
我知道, 如何运作,但我想知道,为什么正是这些技巧。
答案 0 :(得分:4)
TF-IDF是加权。
余弦是衡量使用的。
你可以在没有加权的情况下使用余弦,但结果通常会更糟。 Jaccard在套装上工作 - 如果不将它变成其他东西而不使其与余弦相同,那么如何使用重量并不明显。