我在solr中存储了几乎没有重复文档。 Schema将自动生成的uuid作为唯一键,因此重复项可以进入索引。我需要根据模式中的字段/字段获取重复文档的数量。
我试图在没有编写客户端程序的情况下获得快速数字并完成整个结果集,这在solr控制台本身就是这样。 试图使用facet但无法获得总计数。下面的查询给出了'idfield'的每个值的重复项,但它们需要迭代到最后一页并总结(超过几万个条目)。
Q = *:*&安培;小面=真安培; facet.mincount = 2及facet.field = idfield
答案 0 :(得分:1)
jason facet query可用于查找本博客中解释的唯一值 http://yonik.com/solr-count-distinct/
或者可以使用折叠滤镜完成并找到差异 q = *:*& fq = {!collapse = true field = idfield} - 获取numfound并从MatchAllDocs查询中减去(*:*)
答案 1 :(得分:0)
您还可以使用facet.mincount = 2通过在唯一ID字段上进行分面来获取重复文档。例如:/solr/core/select?q=:&facet=on&field.field=uniqueidfield&facet.mincount=2&facet.missing=true 您还可以添加facet.limit = -1& rows = 0来获取具有重复ID的文档ID