如何在爬行时更改apache nutch的配置

时间:2014-11-26 06:09:19

标签: apache configuration web-crawler nutch

我的抓取工具(apache nutch2.2.1)处于爬行状态。我必须在nutch-site.xml中更改一些爬虫的配置。我已经知道当爬虫处于运行状态时,请避免更改配置。

我的问题是。

  1. 我们可以更改处于运行状态的爬虫的配置吗?
  2. 如果是,那么在对爬虫进行一些更改时是否有任何阳离子?
  3. 或者如果我们无法更改抓取工具的配置,那么如果更改配置会有什么缺点?

1 个答案:

答案 0 :(得分:4)

Nutch 2.2.1抓取是Hadoop作业的循环,我们可以在运行时更改Nutch抓取工具的配置,但只会在下一个Hadoop作业中激活更改。例如,如果在生成作业期间更改配置,则会在获取作业时激活更改。

希望这有帮助,

Le Quoc Do