在hadoop2上运行nutch2.3.1

时间:2016-09-14 08:27:26

标签: hadoop nutch

我想运行nutch2.3.1来抓取hadoop2上的数据。我有3个节点用于hadoop2:

  • crawler1:主
  • crawler2:从
  • crawler3:从

我将nutch2.3.1部署到crawler1并使用以下命令运行它: / usr / local / nutch / deploy / bin / crawl hdfs://xxx.xxx.xxx.xxx/urls/seed.txt test 5

它可以工作并且可以抓取数据,但看起来爬行作业只在crawler1上运行,其他节点没有为nutch做任何工作。

我的问题是:

  1. 我是否需要将nutch部署到crawler2和crawler3?
  2. 我是否需要在3个节点上运行crawl命令?
  3. 如果我的步骤有误,那么正确的步骤是什么?
  4. 抱歉我的英语不好,非常感谢您提供的任何帮助。

0 个答案:

没有答案