在Pig latin中查找文件中的逗号数

时间:2017-04-24 06:42:12

标签: hadoop apache-pig

文件的行数为“N”,每行有3个以逗号分隔的属性。

例如:输入FileX的字段为name,number,amt

内容

abc,123,123
bcd,345,234
cde,349,900

输出: 6

即如何找到逗号的数量?

1 个答案:

答案 0 :(得分:0)

加载文件,使整个记录存储在1个字段中。然后将该行标记为字母。仅过滤逗号,组和计数逗号。

A = load '/home/user/fileX';
B = foreach A generate flatten(TOKENIZE(REPLACE($0,'','|'), '|')) as letter;
C = filter B BY (letter == ',');
D = group C by letter;
E = foreach D generate COUNT(C), group;--Note:if you want only the count then remove the group and generate COUNT(C)
DUMP E;

输出

Output