HY,
我有以下问题。我有2个数据集,其中一个包含以下结构的数据:
A1 B2 C1 D1
A1 B2 C1 D3
A3 B1 C2 D2
etc
,另一个包含这些对象的值:
A1=x
B2=y
C1=z
D1=q
etc
如何对数据进行分组,以便在一个地方对A1 = x B2 = y C1 = z D1 = q进行分组,以计算它们?
谢谢!
答案 0 :(得分:1)
如果第二个数据集很小,您可以将其放入分布式缓存中。
您可以在mapper&中逐行读取第一个数据集。然后使用来自分布式缓存的输入来获取值,然后发出键值对,例如,<“A1 = x B2 = y C1 = z D1 = q”,1>