标签: hadoop fetch nutch
我有一个3-slaves hadoop集群,我正在一个网站上进行抓取。但是,只有1个从站正在执行提取(尽管其他从站仍处于活动状态)。如果只爬网1个域,这是正常行为吗?有没有办法强迫其他奴隶获取?
感谢。
答案 0 :(得分:0)
作为任何Hadoop MR作业设计的一部分,决定如何在映射器之间拆分工作。 在您的情况下,nutch按站点拆分提取过程,因此只使用一个映射器来获取数据。如果你有更多的网站,它会分担负载。 以下是对该过程的一个很好的描述:Nutch如何与Hadoop集群合作?