我们已将1.43亿行(docs)的数据索引到solr中。索引大约需要3个小时。我使用csvUpdateHandler并通过远程流式处理索引csv文件。 现在,当我重新索引相同的csv数据时,它仍然需要3个多小时。
理想情况下,由于_id值没有变化,它应该快速完成有没有办法加快重新索引?
请帮忙解决这个问题。
答案 0 :(得分:2)
在实际提交数据方面,您可能几乎同样有效率 - 可能的变化是仅提交由于某些外部因素而导致您知道已更改的数据。
Solr无论如何都必须查询每个值的索引,然后确定在重建索引之前哪些字段已经更改,这可能比它已经更昂贵。
对于那么多文件,3小时是相当不错的。您应该努力减少提交的行数,以便总工作量少于以前的工作量。如果CSV已排序且仅追加行,请保留最后一个_id,并在提交CSV到Solr之前仅提交ID后面的CSV行。