测量文档集之间的相似性

时间:2011-05-20 09:25:25

标签: solr lucene morelikethis

为了便于说明,我们假设这是一个论坛服务。我需要计算每个用户帖子之间的“相似度”,以便结果如下:

among posts by user A, similarity 60%
among posts by user B, similarity 20%
...

我正在处理多字节字符串,所以我猜我在这里遇到了搜索引擎。我们已经使用了Solr,已经有更多像这样实现了,但我不太确定如何构造查询。任何帮助表示赞赏!

3 个答案:

答案 0 :(得分:1)

Carrot2可能会引起您的兴趣(和this blog相关)

答案 1 :(得分:0)

奇怪的问题有两个方面:1。为什么你要处理SOLR? 2.相似性取决于目标问题。你的问题听起来太通用了。在语义相似性领域正在进行研究。有编辑距离算法,可能不是你想要的。

因此,更准确地定义您的问题并获得更好的答案。

答案 2 :(得分:0)

有几种相似度量,简单有效的是余弦相似度。 有更复杂的,如史密斯 - 沃特曼等,

查看http://sourceforge.net/projects/simmetrics/