Nutch Crawling:在生成期间,是否可以使用多个减速器?

时间:2017-07-31 21:36:09

标签: java hadoop mapreduce web-crawler nutch

我正在使用nutch 2.x进行爬行,其中每批网址包含约3至5百万。

我正在以分布式模式运行,使用带有HBase后端的100节点hadoop集群。网址来自数千个不同的域名。

注入快速运行,但生成阶段可能需要2-4个小时才能完成。它只使用一个减速器。地图阶段使用多个映射器,具体取决于输入大小。但总是只有一个减速器。

我的问题:是否有可能增加生成作业中使用的缩减器数量,如果可以,需要做什么?

我搜索了很多答案,但没有找到任何答案。

0 个答案:

没有答案