Lucene中的Jaccard相似性

时间:2011-07-14 09:05:03

标签: lucene information-retrieval similarity

我需要使用与n-gram相比的Jaccard相似度来计算Lucene中查询和文档的相似性。由于Jaccard的相似性是IR中非常常见的衡量标准,我期望找到它的Lucene实现,但我不能。

有人知道这样的实现吗?

2 个答案:

答案 0 :(得分:2)

我所知道的唯一可以与Lucene轻松集成的实现是来自LingPipe的实现(请注意,它仅适用于非商业/研究用途)。 Here是一篇博客文章,展示了如何在LingPipe中使用它。有关如何连接这两个库的详细说明,请访问LingPipe网站和this book

但是我没有评估过,如果从自己的角度来看(或者从许可的角度来看)集成其他实现并不容易 - 这只是一个对我有用的解决方案。

答案 1 :(得分:1)

尝试使用此库http://sourceforge.net/projects/simmetrics/,您会发现更多相似性函数。但 我建议你使用http://secondstring.sourceforge.net/中的SoftTFIDF,根据“名称匹配任务的字符串距离度量比较”,它具有最佳的精度/召回率。 William W. Cohen和其他人。