将不同包中的每个文件与文件夹分开

时间:2016-02-08 14:51:16

标签: apache-pig

我正在使用PIG LATIN分析之前的T20 WORLD CUP比赛。因此,每个匹配都在一个单独的CSV文件中。而且我想找到所有玩家制作的100个总数。

我的方法:我使用这个脚本加载每个文件:

t20 = LOAD '/home/ankur/Desktop/Pig_Scripts/t20_csv' USING PigStorage(',') as (inning,overs,team,stk,nstk,bowler,run,extra,type,name);

但是使用这种方法,每个文件的数据都会进入同一个包,这就是为什么我找不到100的数据的原因。

  • 如果有任何文件如何进入不同的包,那么我可以使用 FOREACH 。我可以算一算。

我的方式是否正确?如果你有其他想法,建议我。

1 个答案:

答案 0 :(得分:0)

  1. 加载所有文件
  2. 过滤记录“run”>的位置99
  3. 计算已过滤的记录

    t20 = LOAD '/home/ankur/Desktop/Pig_Scripts/*' USING PigStorage(',') as (inning,overs,team,stk,nstk,bowler,run,extra,type,name); hundred_records = FILTER t20 BY (run > 99); total_hundreds = FOREACH hundred_records GENERATE COUNT(hundred_records);