PIG获得组内的最低排名

时间:2014-04-02 19:51:26

标签: apache-pig ranking rank

我是PIG的新手,我试图找出如何获得组内的最低排名。 我想要的是从以下数据集中获取:

ID clickcounter
A   A1
A   A2
A   A3
B   B1
B   B2
C   C1
D   D1
E   E1
E   E2
E   E3
E   E4

...到以下数据集:

ID  clickcounter   Rank     minRank_of_ID
A    A1             1       1
A    A2             2       1   
A    A3             3       1
B    B1             4       4
B    B2             5       4
C    C1             6       6
D    D1             7       7
E    E1             8       8
E    E2             9       8
E    E3             10      8
E    E4             11      8

我尝试了以下代码并且它正在运行,但是我想知道是否有更好的解决方案?

A = LOAD 'datapath' using PigStorage() as (ID:chararray, clickcount:chararray);
B = rank A;
C = group B by ID;
D = foreach C generate  group, flatten($1.clickcount), MIN($1.rank_A);
E = rank D;
Dump D;

1 个答案:

答案 0 :(得分:0)

你走在正确的轨道上。在您的代码中,D之前的所有内容都是正确的。只需进行一些更改,您就可以获得预期的输出:

D = FOREACH C GENERATE group, FLATTEN(B.($0, clickcount)), MIN(B.$0) ;
-- D should not be your expected output!

由于C的输出如下:

(A, {(1, A, A1), (2, A, A2), (3, A, A3)})
(B, {(4, B, B1), (5, B, B2)})
etc.

您的FLATTEN将需要Bclickcount字段中给出的排名。 RANK中的E不会按预期执行,因为数据不再保证与文件中的数据顺序相同。