我的Ubuntu上安装了Nutch 1.13。我可以在独立模式下运行爬网。它成功运行并产生了预期的结果,但我不知道如何在hadoop中运行它?我在伪分布式模式下安装了Hadoop,我想用Hadoop运行Nutch爬行并监视它。我该怎么做?有很多教程可以在独立模式下运行它,但我无法找到关于如何在Hadoop中运行它的任何明确说明,除了我必须使用" Nutch Job"在我用蚂蚁构建它之后。
感谢您的帮助。
答案 0 :(得分:1)
确保您已从源代码构建Nutch,即不使用仅在本地模式下运行的二进制版本。一旦你用
编译ant clean runtime
转到 runtime / deploy / bin 并像往常一样运行脚本。
注意,您需要在重新编译之前修改conf文件。