如果我的表格中包含重复的行,
我可以使用Hive和下面的查询找到它
create table dupe as select * from table1 group by id having count(*) > 1;
我们可以使用Pig执行相同的功能吗?
如果是,有人可以帮助我吗?
答案 0 :(得分:5)
以下代码可以为您提供帮助:
r1 = load ...;
r2 = group r1 by id;
r3 = foreach r2 generate COUNT(r1) as c, r1;
r4 = filter r3 by c > 1;
r5 = foreach r4 generate FLATTEN(r1);
dump r5;
但是,订单不是保留的。