说服Apache Nutch更频繁地向Solr提交

时间:2014-01-04 18:20:22

标签: solr lucene nutch

我正在运行Apache Nutch,它似乎可以工作,并且在小规模运行中将索引文档并在运行结束时提交给Solr。

不幸的是,我想在一些大型网站中深入索引,Nutch不会承诺结束运行。

当你看到堆叠的100k +文件等待对内存施加压力,等待这么长时间等待数据等时,这会出现明显的问题。

有没有办法说服Nutch更频繁地投降?

1 个答案:

答案 0 :(得分:3)

在nutch中有一个名为“solr.commit.size”的配置参数,根据nutch-default.xml中的描述是:

  

定义在单个更新批次中发送给Solr的文档数。     处理非常大的文档时减少以防止Nutch运行     内存不足。注意:它不会显式触发服务器端提交。

正如它所说,它没有显式提交,因为它更优化了将提交时间的决定留给solr。因此,您还应该调整solr配置参数:autoCommit和autoSoftCommit。您可以在solrconfig.xml文件中找到它们的描述。