数据集的格式为:FIELD_A--FIELD_B
示例:
XYZ--1
XYZ--2
XYZ--8
ABC--4
ABC--3
PQR--5
预期产出:
XYZ-3
ABC-2
PQR-1
答案 0 :(得分:2)
data = LOAD 'dataset' USING PigStorage('--');
field1 = FOREACH data GENERATE $0;
grouped = GROUP field1 BY $0;
count = FOREACH grouped GENERATE COUNT(field1);
我不明白为什么你需要B领域,只是在开头弃掉它。