如何在以伪分布式模式安装的Hadoop中运行Nutch

时间:2017-12-22 10:31:04

标签: hadoop web-crawler nutch

我的Ubuntu上安装了Nutch 1.13。我可以在独立模式下运行爬网。它成功运行并产生了预期的结果,但我不知道如何在hadoop中运行它?我在伪分布式模式下安装了Hadoop,我想用Hadoop运行Nutch爬行并监视它。我该怎么做?有很多教程可以在独立模式下运行它,但我无法找到关于如何在Hadoop中运行它的任何明确说明,除了我必须使用" Nutch Job"在我用蚂蚁构建它之后。

感谢您的帮助。

1 个答案:

答案 0 :(得分:1)

确保您已从源代码构建Nutch,即不使用仅在本地模式下运行的二进制版本。一旦你用

编译
  

ant clean runtime

转到 runtime / deploy / bin 并像往常一样运行脚本。

注意,您需要在重新编译之前修改conf文件。