带文档计数的多重读取器> 2.1billion

时间:2015-04-20 15:29:14

标签: java lucene

我的文件数量超过21亿。我选择按月将我的索引分成多个指标。

现在我需要搜索整个索引(跨所有月份......)

我正在阅读的一件事是我可以使用MultiReader来组合多个IndexReader实例。但鉴于它将返回0 < x < Integer.MAX_VALUE(或其左右)范围内的文档编号,如果搜索返回的结果超过21亿,该怎么办?

我是唯一能单独搜索每个索引的方法吗?

使用额外信息进行编辑:

我需要处理每个文件。我没有使用得分。我相信术语是我正在使用&#34;倒排索引&#34;特征

我正在使用Lucene 5.1。

1 个答案:

答案 0 :(得分:0)

您打算如何处理结果?如果这是最终用户消费,那么执行此操作的适当方法是从每个索引返回前N(10?100?),然后根据得分将它们合并在一起,并向用户显示所有索引的最高结果

如果你计划以某种方式处理所有这些,你可以分批返回它们并相应地处理它们。