应用错误收集

时间：2016-11-21 09:33:37

标签： indexing solr

我们已将1.43亿行（docs）的数据索引到solr中。索引大约需要3个小时。我使用csvUpdateHandler并通过远程流式处理索引csv文件。现在，当我重新索引相同的csv数据时，它仍然需要3个多小时。

理想情况下，由于_id值没有变化，它应该快速完成有没有办法加快重新索引？

请帮忙解决这个问题。

答案 0 :(得分：2)

在实际提交数据方面，您可能几乎同样有效率 - 可能的变化是仅提交由于某些外部因素而导致您知道已更改的数据。

Solr无论如何都必须查询每个值的索引，然后确定在重建索引之前哪些字段已经更改，这可能比它已经更昂贵。

对于那么多文件，3小时是相当不错的。您应该努力减少提交的行数，以便总工作量少于以前的工作量。如果CSV已排序且仅追加行，请保留最后一个_id，并在提交CSV到Solr之前仅提交ID后面的CSV行。