Nutch是否在本地模式下独立于Hadoop?

时间:2017-03-14 14:14:28

标签: hadoop mapreduce web-crawler nutch

据我所知,在部署模式下运行Nutch是基于Hadoop的分布式爬网,但我无法完全理解在本地模式下运行它时的情况。在这种情况下,Nutch是否独立于Hadoop?并且本地模式下的爬网过程不是基于MapReduce吗?

1 个答案:

答案 0 :(得分:2)

Nutch基于MapReduce,无论它如何运行。 Hadoop库是Nutch的依赖项,在本地模式下,Nutch将Hadoop相关的lib放在类路径上,并在一个JVM中运行它。在分布式模式下,调用'hadoop'命令。

Nutch script
PS:如果你在一台机器上使用Nutch,那么在伪分布式模式下运行它是有意义的,这样你就可以得到MapReduce UI来监控爬行+并行等......