我的数据集如下 -
关键值
k1 a1,b1,c1,d1
k2 a2,b1,c2,d2
k3 a3,b1,c3,d3
k4 a4,b1,c4,d4
k5 a5,b1,c5,d5
在上面的数据集中,密钥是不同的,并且值是逗号分隔值之一,即b1在所有值集中是共同的。 而我的要求就是如果该值相同,则在这些值之外,只应选择一个值作为输出记录。 简而言之,我希望在键不同时删除重复值。
有人可以告诉我如何接近吗?
我有以下实施 -
一个。比如在reducer端,我可以在set中添加值,然后它会自动删除重复项。
但我想知道Map Reduce框架方面是否有任何解决方案来识别重复值并将其删除。
期望输出 -
k5 a5,b1,c5,d5
应该使用最新重复值的最新密钥。
提前致谢。