给定每对单词的相似度,如何测量两个文档的相似度?

时间:2018-08-30 06:48:40

标签: python-3.x nlp similarity

我有两个文档,例如:

Doc1 = {'python','numpy','machine learning'}
Doc2 = {'python','pandas','tensorflow','svm','regression','R'}

我也知道每对单词的similarity(相关性),例如

Sim('python','python') = 1
Sim('python','pandas') = 0.8
Sim('numpy', 'R') = 0.1

衡量两个文档相似度的最佳方法是什么?

在这种情况下,传统的Jaccard distancecosine distance似乎不是一个很好的指标。

1 个答案:

答案 0 :(得分:0)

在这个问题上,我喜欢a book by Peter Christen

在这里,他描述了两组字符串之间的 Monge-Elkan 相似性度量。 对于第一个集合中的每个单词,您会找到第二个集合中最接近的单词,然后将其除以第一个集合中的元素数。 您可以查看其说明on page 30 here