应用错误收集

Nutch Crawling：在生成期间，是否可以使用多个减速器？

时间：2017-07-31 21:36:09

标签： java hadoop mapreduce web-crawler nutch

我正在使用nutch 2.x进行爬行，其中每批网址包含约3至5百万。

我正在以分布式模式运行，使用带有HBase后端的100节点hadoop集群。网址来自数千个不同的域名。

注入快速运行，但生成阶段可能需要2-4个小时才能完成。它只使用一个减速器。地图阶段使用多个映射器，具体取决于输入大小。但总是只有一个减速器。

我的问题：是否有可能增加生成作业中使用的缩减器数量，如果可以，需要做什么？

我搜索了很多答案，但没有找到任何答案。

0 个答案:

没有答案