优化Lucene批量索引

时间:2010-11-02 19:57:36

标签: c# indexing lucene.net

这就是问题:

我正在使用Lucene.Net,我导入的~25.5k文件,每个约6个字段。我尝试了一些东西,但这个过程需要很多(~1天)。我没有使用任何奇怪的分析器,只是标准的分析器和Im只标记其中一个字段。我尝试更改最大合并文档而没有。

有没有人遇到过这个问题?

谢谢和最好的问候

2 个答案:

答案 0 :(得分:2)

我会采取不同的选择,我决定发布结果,所以如果有人应该面对同样的问题,可能会找到另一种方法。

Lucene.net有一个有趣的功能,允许合并两个索引,所以我的想法是将我的内容索引到几个较小的索引,并使用合并功能将它们连接起来。

这对我有用。我测试了这个解决方案索引WordNet的解决方案,它可以完美地运行。

答案 1 :(得分:1)

假设您无法访问探查器(Redgate ANTS非常好),那么:

  1. 解决您的瓶颈:它是Lucene代码还是您的数据读取器?注释掉Lucene索引代码,只留下您的数据阅读器。应该很容易判断问题所在。
  2. 确保您使用的是由SVN构建的lucene。来自subversion的版本2.9.x比早期版本好得多,特别是在索引速度方面
  3. 使用默认的合并因子等.Lucene似乎比我调整的尝试要好得多。
  4. 最后(也许最重要的是!)索引编制很慢吗?如果你每年只需要做一次或两次:我会说不要担心。 (除非这是学习练习或某些事情)
  5. 希望这有帮助,