假设我有以下数据集: -
Year Temp
1974 48
1974 48
1991 56
1983 89
1993 91
1938 41
1938 56
1941 93
1983 87
我希望我的最终答案是93(与1941年有关)。我能够找到每年的最高温度(Say 1941-93),但无法找到最高温度。任何建议表示赞赏。
谢谢,
答案 0 :(得分:3)
您可以通过两种方式解决此问题。
选项1:使用(组ALL + MAX)
A = LOAD 'input' USING PigStorage() AS (Year:int,Temp:int);
B = GROUP A ALL;
C = FOREACH B GENERATE MAX(A.Temp);
DUMP C;
<强>输出:强>
(93)
选项2:使用(订购和限制)
A = LOAD 'input' USING PigStorage() AS (Year:int,Temp:int);
B = ORDER A BY Temp DESC;
C = LIMIT B 1;
D = FOREACH C GENERATE Temp;
DUMP D;
<强>输出:强>
(93)