我正在使用Nutch 1.9来抓取一组500个网站。我在Amazon EMR集群中运行nutch并将数据索引到Solr。
启动EMR集群时,我已经启动了5个从属节点。我在抓取脚本中将numSlaves参数指定为5。我想把我的奴隶增加到10来加快这个过程。我能够将AWS控制台中的从属节点数增加到10. nutch是否会使用所有10个从属节点,而无需重新启动爬网或修改爬网脚本。
由于
答案 0 :(得分:1)
不。您需要修改爬网脚本并重新启动它。没什么大不了的,只需SSH到主节点并在runtime / deploy / bin中创建一个文件.STOP。这将在当前迭代完成时停止爬网循环。然后,您可以在将值设置为10后重新启动脚本。
顺便说一句,你可以通过询问Nutch邮件列表来获得更快的答案