nutch hadoop只有一个奴隶正在爬行

时间:2012-05-24 03:52:29

标签: hadoop fetch nutch

我有一个3-slaves hadoop集群,我正在一个网站上进行抓取。但是,只有1个从站正在执行提取(尽管其他从站仍处于活动状态)。如果只爬网1个域,这是正常行为吗?有没有办法强迫其他奴隶获取?

感谢。

1 个答案:

答案 0 :(得分:0)

作为任何Hadoop MR作业设计的一部分,决定如何在映射器之间拆分工作。 在您的情况下,nutch按站点拆分提取过程,因此只使用一个映射器来获取数据。如果你有更多的网站,它会分担负载。
以下是对该过程的一个很好的描述:Nutch如何与Hadoop集群合作?