我正在运行Apache Nutch,它似乎可以工作,并且在小规模运行中将索引文档并在运行结束时提交给Solr。
不幸的是,我想在一些大型网站中深入索引,Nutch不会承诺结束运行。
当你看到堆叠的100k +文件等待对内存施加压力,等待这么长时间等待数据等时,这会出现明显的问题。
有没有办法说服Nutch更频繁地投降?
答案 0 :(得分:3)
在nutch中有一个名为“solr.commit.size”的配置参数,根据nutch-default.xml中的描述是:
定义在单个更新批次中发送给Solr的文档数。 处理非常大的文档时减少以防止Nutch运行 内存不足。注意:它不会显式触发服务器端提交。
正如它所说,它没有显式提交,因为它更优化了将提交时间的决定留给solr。因此,您还应该调整solr配置参数:autoCommit和autoSoftCommit。您可以在solrconfig.xml文件中找到它们的描述。