在Hadoop中对数据进行分组

时间:2013-06-26 15:01:38

标签: hadoop mapreduce

HY,

我有以下问题。我有2个数据集,其中一个包含以下结构的数据:

A1 B2 C1 D1
A1 B2 C1 D3
A3 B1 C2 D2
etc

,另一个包含这些对象的值:

A1=x
B2=y
C1=z
D1=q
etc

如何对数据进行分组,以便在一个地方对A1 = x B2 = y C1 = z D1 = q进行分组,以计算它们?

谢谢!

1 个答案:

答案 0 :(得分:1)

如果第二个数据集很小,您可以将其放入分布式缓存中。

您可以在mapper&中逐行读取第一个数据集。然后使用来自分布式缓存的输入来获取值,然后发出键值对,例如,<“A1 = x B2 = y C1 = z D1 = q”,1>