如何使用PIG计算特定字段的每个值的出现次数?

时间:2014-04-02 20:07:06

标签: hadoop apache-pig

数据集的格式为:FIELD_A--FIELD_B

示例:

XYZ--1
XYZ--2        
XYZ--8        
ABC--4        
ABC--3        
PQR--5        

预期产出:

XYZ-3
ABC-2
PQR-1

1 个答案:

答案 0 :(得分:2)

data = LOAD 'dataset' USING PigStorage('--');
field1 = FOREACH data GENERATE $0;
grouped = GROUP field1 BY $0;
count = FOREACH grouped GENERATE COUNT(field1);

我不明白为什么你需要B领域,只是在开头弃掉它。