如何根据文档集合计算文档相似度?

时间:2016-08-22 13:11:10

标签: information-retrieval

将成对文档相似性得分组合起来以获得某个文档与文档集合的整体相似性得分的方法是什么?

如何根据文档集计算文档相似度? - ResearchGate。可从:https://www.researchgate.net/post/How_to_compute_document_similarity_against_a_document_collection [2016年8月22日访问]。

1 个答案:

答案 0 :(得分:0)

接近这一点的一种方法是朴素贝叶斯文本分类器的工作方式。通过将集合中的所有文档“连接”成一个大型伪文档,您可以评估特定文档与该“集合”文档的相似性。这就是大多数垃圾邮件过滤器的工作方式;他们将文件“廉价药品”的文本与垃圾文件中的文字进行比较,看看它是否比您倾向于阅读的文件更像。

这种“伪文档”方法可能是计算这种相似性的最有效方法,因为在预先计算集合的表示之后,您只需要对每个文档进行一次相似度计算。

如果您确实拥有文档相似性矩阵并且想要使用文档对相似性而不是创建伪文档,那么您几乎就是在执行聚类。 (我这样说是因为如何结合文档内部的相似性是聚类类型中不同链接方法的主题)。

这样做的一种方法可能是查看平均相似度。对于文档,您总结该文档与所有其他文档之间的相似性分数,并除以总计。这样可以让您了解该文档与相似空间中其他文档之间的平均距离。异常值的平均距离较长,因为大多数文档距离它都比集群中心的文档更远。

如果没有关于您的相似性度量的更多信息或您尝试解决的问题,我不确定我是否可以提供更好的建议。