TF-IDF余弦相似度得分的阈值

时间:2016-08-24 20:41:29

标签: document similarity threshold

这个问题与此问题非常相似:Systematic threshold for cosine similarity with TF-IDF weights

我应该如何切断微小的相似之处?在上面的链接中,答案给出了一种基于平均值的技术。但即使所有相似性都非常小,这也可以返回文档,例如,< 0.01。

我如何知道给定的文档查询是否与语料库无关,以至于其他文档不应被视为与其类似?有没有系统的方法为此定义一个截止值?

0 个答案:

没有答案