Lucene:导入大型数据集时的提交间隔

时间:2014-11-30 12:41:07

标签: optimization indexing lucene commit

在索引大型数据集的过程中,推荐的提交策略是什么?我想增加约10万美元。文档到新创建的索引,我不关心索引的任何中间结果(即严格分离索引阶段,然后搜索阶段)。

在索引编制期间,我目前提交了每10,000个添加的文档,但我意识到这个值只是一些常量,我从一年前的代码中反复复制,而且我从未想过选择一个最佳值。 / p>

我的问题归结为以下几点:

  1. 如何处理未提交的文件?他们被记忆了吗?
  2. 如何实现最佳索引性能?更多提交与较少提交?

0 个答案:

没有答案