我收到了文章数据库,文本中包含500个字符到2000个字符的数据,我从第三方获取数据, 对于新数据,我必须使用我们已有的数据检查数据重复百分比,如果重复百分比超过50%,那么我们必须拒绝该数据,否则在数据库中插入数据。
Solr中的重复百分比是否可能,如果是,那么我们如何才能实现这一目标。
感谢。
答案 0 :(得分:1)
Solr不使用相似度的百分比,但使用得分的概念。直到版本6 Solr使用TFIDF计算得分,如果您对如何计算得分感兴趣,可以参考this document。从版本6开始,使用BM25计算得分here。 因此,如果您想使用Solr,您需要遵循以下方法之一: