在Solr中索引〜1TB richtext douments的最佳方法是什么?

时间:2015-10-28 07:10:30

标签: java search solr apache-tika

我试图索引大约120万个文件(1TB)的doc,pdf,xls,msg和其他文件。我使用Java爬虫程序遍历每个文件并使用执行update / extract cURL命令的进程将其发布到Solr,并定期提交。

目前索引需要大约75个小时,这很长。我已经在网上看到了其他方法来提高索引速度,但鉴于我们不仅仅为文本或CSV编制了富文本文档的索引,我还不确定哪些方法适用于我们的情况。

这些文件最多可达25MB,可以是数千页的长度,所以我认为减慢它的速度是Tika提取所有文本。我不确定如何解决这个问题,最终我们必须使用Tika以某种方式获取内容。

我看到帖子说多线程可以用于编制索引,但是我没有太多的经验,所以在我试图努力创造一种方法来做到这一点之前我想我是否会看到是否有人关于可能增加索引时间的另一种方式的想法(或者我错过的一些明显的东西)。

由于

1 个答案:

答案 0 :(得分:2)

您可能应该使用Hadoop考虑构建索引。此选项可从Solr 4.9获得(请参阅问题SOLR-1045),并允许使用多台计算机进行索引创建。