猪 - 从包中删除重复的元组

时间:2014-10-12 23:54:17

标签: apache-pig

我在这个模式的关系中加载了以下{group:(int,int),A:{(n1:int,n2:int)}}:

((1,1),{(0,1)})
((2,2),{(0,2)})
((3,3),{(3,0)})
((4,2),{(1,3)})
((5,1),{(2,3)})
((5,3),{(1,4)})
((7,3),{(2,5)})
((9,1),{(4,5)})
((10,2),{(4,6)})
((10,4),{(7,3)})
((11,1),{(5,6)})
((11,3),{(4,7)})
((12,4),{(4,8)})
((13,1),{(6,7)})
((19,1),{(10,9),(9,10)})
((,),{(,),(,),(,)})

我想从每个包中提取第一个元组,即:         ((19,1),{(10,9),(9,10)}) - > (10,9)

感谢任何帮助。

1 个答案:

答案 0 :(得分:0)

你能尝试这样吗?

C = FOREACH B {
                top1 = LIMIT A 1;
                GENERATE FLATTEN((top1));
              }

此处B是您的群组关系名称。