Pig - MAX在分组后无法正常工作

时间:2015-06-11 18:35:56

标签: hadoop group-by apache-pig

我正在使用Pig 0.12.1Map-R。在将关系分组到其他某个字段后,我试图找到字段的 max 。请参阅以下猪的脚本和评论中的关系结构 -

r1 = foreach SomeRelation generate flatten(group) as (c1 , c2);
-- r1: {c1: biginteger,c2: biginteger}
r2 = group r1 by c1;
-- r2: {group: chararray,r1: {(c1: chararray,c2: biginteger)}}

DUMP r2;
/* output -
1234|{(1234,9876)}
2345|{(2345,8765)}
3456|{(3456,7654)}
4567|{(4567,6543)}
*/

r3 = foreach r2 generate group as c1, MAX(r1.c2) as c2;

我收到以下错误

Could not infer the matching function for org.apache.pig.builtin.MAX as multiple or none of them fit. Please use an explicit cast.

脚本解释 -

  

我将SomeRelation的组扁平化为c1,c2然后重新组合   在c1上,每个c1组产生最大c2。

请建议。

3 个答案:

答案 0 :(得分:1)

我不确定你是否可以在展平下使用group关键字。此外,您是否考虑在展平之前对组进行标记。请参阅此示例:

       load_data = LOAD '/PIG_TESTS_ALL/WordCount' as (line); 
       tokenizing_data = FOREACH load_data generate flatten(TOKENIZE(line)) as word; 
       group_data = GROUP tokenizing_data by word; 
       Result = FOREACH group_data generate group,COUNT(tokenizing_data); 
       dump Result;

这实际上是字数统计,您可以在此基础上根据您的目标找到最大值。

答案 1 :(得分:1)

看起来问题是Pig在biginteger上不允许 MAX (或者就像 SUM 等聚合函数一样)。不得不使用long作为数据类型才能工作。请参阅以下内容 -

r1 = foreach SomeRelation generate flatten(group) as (c1 , c2:long);
-- r1: {c1: biginteger,c2: long}

奇怪的是,没有文档强调这几乎像数据类型biginteger和bigdecimal。

答案 2 :(得分:0)

我们现在知道问题是MAX无法处理biginteger。

您应该能够像这样分组并获得最大值,并将结果与​​订单+限制的组合进行比较:

r1 = FOREACH SomeRelation GENERATE FLATTEN(group) AS (c1, c2);
r3 = FOREACH (group r1 by c1) {
    -- you may want to apply a function on a single column
    -- or compare sort + limit to MAX
    list = ORDER $1 BY c2 DESC;
    list_max = LIMIT list 1;
    GENERATE group AS c1, MAX(r1.c2) AS c2, list_max;
}