Question

我正在学习如何使用Hadoop Pig。

如果我有这样的输入文件：

a,b,c,true
s,c,v,false
a,s,b,true
...

最后一个字段是我需要计算的字段...所以我想知道这个文件中有多少'true'和'false'。

我试试：

records = LOAD 'test/input.csv' USING PigStorage(',');
boolean = foreach records generate $3;
groups = group boolean all;

现在我卡住了。我想用：

count = foreach groups generate count('true');"

要获得“true”的数字，但我总是得到错误：

2013-08-07 16：32：36,677 [main] ERROR org.apache.pig.tools.grunt.Grunt - 错误1070：无法使用导入解析计数：[，org.apache.pig.builtin。，org.apache.pig.impl.builtin。] 日志文件的详细信息：/etc/pig/pig_1375911119028.log

有人能告诉我问题出在哪里吗？

Answer 1

两件事。首先，count实际上应该是COUNT。在pig中，应该使用all-caps调用所有内置函数。

其次，COUNT计算行李中的值的数量，而不计算值。因此，您应该按真/假分组，然后COUNT：

boolean = FOREACH records GENERATE $3 AS trueORfalse ;
groups = GROUP boolean BY trueORfalse ;
counts = FOREACH groups GENERATE group AS trueORfalse, COUNT(boolean) ;

现在DUMP counts的输出结果如下：

(true, 2)
(false, 1)

如果你想在他们自己的关系中得到真假的计数，那么你可以FILTER counts的输出。但是，SPLIT boolean可能会更好，然后执行两个单独的计数：

boolean = FOREACH records GENERATE $3 AS trueORfalse ;
SPLIT boolean INTO alltrue IF trueORfalse == 'true', 
                   allfalse IF trueORfalse == 'false' ;

tcount = FOREACH (GROUP alltrue ALL) GENERATE COUNT(alltrue) ;
fcount = FOREACH (GROUP allfalse ALL) GENERATE COUNT(allfalse) ;

Hadoop Pig计数

1 个答案: