如何计算分组后计数之间的差异?

时间:2016-04-12 01:51:41

标签: hadoop apache-pig

我将组中的数据格式化为:(GroupID,count)。如下所示,我想计算计数之间的差异,同时保留GroupID。所以,它变成(1,288)(2,2),(3,66).... 我试图使用SUBTRACT函数,但不知道如何从当前记录中减去先前的记录。第二张图显示了计数部分。减法部分失败。

enter image description here enter image description here

1 个答案:

答案 0 :(得分:1)

这有点难以实现,但可以使用JOIN来生成。生成另一个关系,从第二行开始,但ID为1,即($ 0-1).Join 2关系并生成差异。对于Id,添加1到得到原始的ids.Union第一行,包含差异的行。

A = foreach win_grouped generate $0 as id,count($1) as c; -- (1,228),(2,230)... so on
A1 = filter A by ($0 > 1);                                -- (2,230),(3,296)... so on
B = foreach A1 generate ($0 - 1) as id,$1 as c;           -- (1,230),(2,296)... so on
AB = join A by id,B by id;                                -- (1,228,1,230),(2,230,2,296)...so on
C = foreach AB generate (A::id + 1),(B::c - A::c)         -- (2,2),(3,66)...so on
D = limit A 1;                                            -- (1,288)
E = UNION D,C;                                            -- (1,288),(2,2),(3,66)...so on
DUMP E;