标签: apache configuration web-crawler nutch
我的抓取工具(apache nutch2.2.1)处于爬行状态。我必须在nutch-site.xml中更改一些爬虫的配置。我已经知道当爬虫处于运行状态时,请避免更改配置。
我的问题是。
答案 0 :(得分:4)
Nutch 2.2.1抓取是Hadoop作业的循环,我们可以在运行时更改Nutch抓取工具的配置,但只会在下一个Hadoop作业中激活更改。例如,如果在生成作业期间更改配置,则会在获取作业时激活更改。
希望这有帮助,
Le Quoc Do