在hadoop中减少后处理数据

时间:2015-04-06 14:07:45

标签: java hadoop

我有一个文本文件:

A 1
A 4
A 2
B 8
B 1

我想计算maxA(4)maxB(8)的平均值。首先,在映射器中,我通过键将数据传递给reducer,在reducer中,我找到该键的最大值。但是如何在减少之后计算它们的平均值?

1 个答案:

答案 0 :(得分:1)

如果您只有映射器输出键的最大值,那么您将无法从reducer的输出中检索键的平均值。根本没有足够的信息。

在reducer处理期间取平均值并将其与最大值一起输出(可能由一些分隔符分隔以便于解析),或者运行另一个map-reduce作业以计算平均值。