爬网脚本中的Nutch numSlaves参数

时间:2015-09-21 03:37:12

标签: nutch emr

我正在使用Nutch 1.9来抓取一组500个网站。我在Amazon EMR集群中运行nutch并将数据索引到Solr。

启动EMR集群时,我已经启动了5个从属节点。我在抓取脚本中将numSlaves参数指定为5。我想把我的奴隶增加到10来加快这个过程。我能够将AWS控制台中的从属节点数增加到10. nutch是否会使用所有10个从属节点,而无需重新启动爬网或修改爬网脚本。

由于

1 个答案:

答案 0 :(得分:1)

不。您需要修改爬网脚本并重新启动它。没什么大不了的,只需SSH到主节点并在runtime / deploy / bin中创建一个文件.STOP。这将在当前迭代完成时停止爬网循环。然后,您可以在将值设置为10后重新启动脚本。

顺便说一句,你可以通过询问Nutch邮件列表来获得更快的答案