Solr可用于计算文档之间的匹配百分比吗?

时间:2016-12-28 12:24:23

标签: solr

我收到了文章数据库,文本中包含500个字符到2000个字符的数据,我从第三方获取数据, 对于新数据,我必须使用我们已有的数据检查数据重复百分比,如果重复百分比超过50%,那么我们必须拒绝该数据,否则在数据库中插入数据。

Solr中的重复百分比是否可能,如果是,那么我们如何才能实现这一目标。

感谢。

1 个答案:

答案 0 :(得分:1)

Solr不使用相似度的百分比,但使用得分的概念。直到版本6 Solr使用TFIDF计算得分,如果您对如何计算得分感兴趣,可以参考this document。从版本6开始,使用BM25计算得分here。 因此,如果您想使用Solr,您需要遵循以下方法之一:

  1. 采用基于分数而非百分比的方法;
  2. 建立自己的相似性等级来处理百分比。