标签: java hadoop mapreduce web-crawler nutch
我正在使用nutch 2.x进行爬行,其中每批网址包含约3至5百万。
我正在以分布式模式运行,使用带有HBase后端的100节点hadoop集群。网址来自数千个不同的域名。
注入快速运行,但生成阶段可能需要2-4个小时才能完成。它只使用一个减速器。地图阶段使用多个映射器,具体取决于输入大小。但总是只有一个减速器。
我的问题:是否有可能增加生成作业中使用的缩减器数量,如果可以,需要做什么?
我搜索了很多答案,但没有找到任何答案。