Solr facet计数不正确,如何进行重复数据删除

时间:2011-08-17 17:13:59

标签: indexing solr facet

我们使用两个solrs来索引文件。有时一篇文章会在两个solrs中编入索引,因为我们会更新。由于这些重复的文章,它会导致构面计数不正确的问题。我怎样才能重复计算?

1 个答案:

答案 0 :(得分:0)

我建议不要保留重复的文章。因此,您需要一种方法来识别此重复文章,并将其从一个SOLR中删除。

如果您不想删除重复的文章,则仍需要跟踪它们。 知道SOLR1中的哪些文章在SOLR2中是重复的,这将有助于您删除这样的计数:

  • 在SOLR1中创建一个名为

    的额外字段
    IsDuplicateField = true, if article is duplicated in SOLR2
                     = false, otherwise
    
  • 当你对SOLR1进行查询时添加:IsDuplicatedField = true到facets。

  • 检索结果时,只减少了SOLR1中IsDuplicateField总数的构面总数。

在这种情况下,facet IsDuplicateField将检索所有重复的文章并与您的查询匹配。

祝你好运!