标签: hadoop apache-pig
我有一个双列数据集,指定一些组名变量,用户以长格式属于它。
A user1 A user3 B user1 B user3 C user1 C user2
使用pig-latin,我想删除包含相同用户ID成员的组的重复项,以获得类似
A user1 A user3 C user1 C user2
我想我需要按组名称进行分组,并尝试按用户ID的内容进行重复数据删除,但我不知道该怎么做。任何建议都会受到欢迎。