应用错误收集

如何使用MapReduce删除重复值

时间：2016-06-28 01:36:11

标签： hadoop mapreduce

我的数据集如下 -

关键值

k1 a1，b1，c1，d1

k2 a2，b1，c2，d2

k3 a3，b1，c3，d3

k4 a4，b1，c4，d4

k5 a5，b1，c5，d5

在上面的数据集中，密钥是不同的，并且值是逗号分隔值之一，即b1在所有值集中是共同的。而我的要求就是如果该值相同，则在这些值之外，只应选择一个值作为输出记录。简而言之，我希望在键不同时删除重复值。

有人可以告诉我如何接近吗？

我有以下实施 -

一个。比如在reducer端，我可以在set中添加值，然后它会自动删除重复项。

但我想知道Map Reduce框架方面是否有任何解决方案来识别重复值并将其删除。

期望输出 -

k5 a5，b1，c5，d5

应该使用最新重复值的最新密钥。

提前致谢。

0 个答案:

没有答案