我有两个文档,例如:
Doc1 = {'python','numpy','machine learning'}
Doc2 = {'python','pandas','tensorflow','svm','regression','R'}
我也知道每对单词的similarity
(相关性),例如
Sim('python','python') = 1
Sim('python','pandas') = 0.8
Sim('numpy', 'R') = 0.1
衡量两个文档相似度的最佳方法是什么?
在这种情况下,传统的Jaccard distance
和cosine distance
似乎不是一个很好的指标。
答案 0 :(得分:0)
在这个问题上,我喜欢a book by Peter Christen。
在这里,他描述了两组字符串之间的 Monge-Elkan 相似性度量。 对于第一个集合中的每个单词,您会找到第二个集合中最接近的单词,然后将其除以第一个集合中的元素数。 您可以查看其说明on page 30 here。