应用错误收集

限制所有减速器共同产生的记录数

时间：2012-04-05 02:51:51

标签： hadoop mapreduce nutch

以下是用例：

输入网址由地图读取，稍后会在过滤后发出。然后分区程序根据其主机名对它们进行分区。

运行map-reduce作业后，我对输出网址有全局限制。我将它均匀地分布在所有减速器上。即。如果全局限制为1000且reducers数为5，那么每个reducer最多会发出（1000/5 = 200）urls作为输出

问题是，如果只有2个主机的网址（由于用户输入），并且这2个主机中每个主机都有100000个网址，处理这些URL的2个reducer（相同的主机，相同的分区）将限制每个输出的200个url。休息减少器由于分区而没有得到任何处理数据并发出0记录。

所以尽管我有100000个网址/主机和全局限制1000，但输出只有400个网址（200个网址/主机）。

2 个答案:

答案 0 :(得分：1)

Hadoop内置了对全局counters的支持。您可以定义自己的计数器，并从mapper或reducer代码中增加/读取它们。

答案 1 :(得分：1)

如果您不必按主机名进行分区，则可以通过随机分区程序解决问题。

如果你必须按主机名进行分区，我认为没有任何简单的答案。每个reducer都不知道会有多少记录。每个reducer必须累积100000条记录或收到的数量。您需要覆盖reducer中的清理功能。 Reducers需要在“cleanup”函数中相互通信（通过计数器），并决定需要多少条记录，并只在清理函数中写出记录。

你觉得怎么样？