我是PIG的新手,我试图找出如何获得组内的最低排名。 我想要的是从以下数据集中获取:
ID clickcounter
A A1
A A2
A A3
B B1
B B2
C C1
D D1
E E1
E E2
E E3
E E4
...到以下数据集:
ID clickcounter Rank minRank_of_ID
A A1 1 1
A A2 2 1
A A3 3 1
B B1 4 4
B B2 5 4
C C1 6 6
D D1 7 7
E E1 8 8
E E2 9 8
E E3 10 8
E E4 11 8
我尝试了以下代码并且它正在运行,但是我想知道是否有更好的解决方案?
A = LOAD 'datapath' using PigStorage() as (ID:chararray, clickcount:chararray);
B = rank A;
C = group B by ID;
D = foreach C generate group, flatten($1.clickcount), MIN($1.rank_A);
E = rank D;
Dump D;
答案 0 :(得分:0)
你走在正确的轨道上。在您的代码中,D
之前的所有内容都是正确的。只需进行一些更改,您就可以获得预期的输出:
D = FOREACH C GENERATE group, FLATTEN(B.($0, clickcount)), MIN(B.$0) ;
-- D should not be your expected output!
由于C
的输出如下:
(A, {(1, A, A1), (2, A, A2), (3, A, A3)})
(B, {(4, B, B1), (5, B, B2)})
etc.
您的FLATTEN
将需要B
和clickcount
字段中给出的排名。 RANK
中的E
不会按预期执行,因为数据不再保证与文件中的数据顺序相同。