如何使用MapReduce删除重复值

时间:2016-06-28 01:36:11

标签: hadoop mapreduce

我的数据集如下 -

关键值

k1 a1,b1,c1,d1

k2 a2,b1,c2,d2

k3 a3,b1,c3,d3

k4 a4,b1,c4,d4

k5 a5,b1,c5,d5

在上面的数据集中,密钥是不同的,并且值是逗号分隔值之一,即b1在所有值集中是共同的。 而我的要求就是如果该值相同,则在这些值之外,只应选择一个值作为输出记录。 简而言之,我希望在键不同时删除重复值。

有人可以告诉我如何接近吗?

我有以下实施 -

一个。比如在reducer端,我可以在set中添加值,然后它会自动删除重复项。

但我想知道Map Reduce框架方面是否有任何解决方案来识别重复值并将其删除。

期望输出 -

k5 a5,b1,c5,d5

应该使用最新重复值的最新密钥。

提前致谢。

0 个答案:

没有答案