如何在猪拉丁中与组重复删除

时间:2017-11-21 02:02:47

标签: hadoop apache-pig

我有一个双列数据集,指定一些组名变量,用户以长格式属于它。

A  user1
A  user3
B  user1
B  user3
C  user1
C  user2

使用pig-latin,我想删除包含相同用户ID成员的组的重复项,以获得类似

的内容
A  user1
A  user3
C  user1
C  user2

我想我需要按组名称进行分组,并尝试按用户ID的内容进行重复数据删除,但我不知道该怎么做。任何建议都会受到欢迎。

0 个答案:

没有答案