两个文档之间的不同功能

时间:2018-07-03 09:10:05

标签: nlp nltk gensim cosine-similarity

我正在尝试查找两个文档之间的差异。我正在使用gensim,到目前为止已获得相似度得分。 有什么方法可以知道这两个文档之间的相似度得分和不同特征吗? 以及如何评估? 请帮忙。谢谢

1 个答案:

答案 0 :(得分:0)

使用单词向量的余弦相似度给出了两个句子之间的语义相似度。首先,让我们了解如何计算。假设有两个向量代表两个文本文档,

enter image description here

enter image description here

然后向量的点积由

给出

enter image description here

在几何上,θ表示平面上 a b 向量之间的角度。因此,角度越小,相似度越高。因此,余弦相似度方法报告了该角度测量。现在在几何上,如果两个向量之间的差较小,则角度较小,因此余弦相似度较高。如果角度远且接近90',则该余弦接近零。

因此,低的余弦相似度表示不相关的向量。当然,在文本文档的情况下,不相关的向量可能是双相似度的度量。否则,如果角度接近180',则余弦相似度将接近1,但将被取整。这可能意味着两个文档的含义相反。这又是另一种不同的歧视。总结一下,根据您的应用,您可以使用互不相关的向量和相反的向量来测量双相似性。

您还可以考虑语法差异,例如依赖解析树中的差异,命名实体等。但是同样又不知道您到底要达到什么目的,很难建议采用单一方法。