Solr索引增加速度?

时间:2012-09-07 13:35:35

标签: solr solrj pdfbox

我正在试图弄清楚什么时候保持索引速度。 我正在从pdf中提取文本,将每个页面分别索引到solr以获取页面命中结果。

我在每个“文档”之后都使用了commit。然后我注意到我花了大量时间重建索引,因为我使用了提交。

现在我用它:

      <autoCommit> <maxDocs>10000</maxDocs> <maxTime>60000</maxTime> </autoCommit>

每分钟都要提交一次。

但后来我在计算并发现它以 30'文档'(页面为solrDoc)/秒或10真实文档/秒为索引。与其他设置相比,这似乎相当慢。

我怎样才能提高速度?

额外信息:(如果需要请求)

  • 我的文档包含7个字段。(1个内容字段,页面上有文字)

  • 我使用 Solrj 将文档添加到solr。

  • 我正在使用示例配置,因为我没有Solr的高级知识

  • pc intel core i7 2600 + 16Gb ram + ssd(这是开发电脑不是 最终服务器,但它应该非常快)没有太多的cpu和ram被使用。

  • 我从外部存储获取文件。 (但它很快我可以轻松获得12MB / s)

  • 我使用 pdfbox

  • 提取文本
  • 390分钟制作 650Mb索引(455600 solrdocuments)

1 个答案:

答案 0 :(得分:1)

一个方面是你的进程是否是多线程的,如果没有,通过让几个线程从pdf中提取文本然后移交给solr进行索引来进行测试。