我已经使用Pig将数据加载到Hadoop中,但是当我转储csv表时,看起来我的数据被分成了一百万。原始CSV:
state population
California 39144818
Texas 27469114
Florida 20271272
要加载的Pig代码:
statePopFile =LOAD 'hdfs:/home/ubuntu/final/gunData/statePops.csv' using PigStorage(',');
stateRec = FOREACH statePopFile GENERATE $0 AS state ,$1 as population;
dump stateRec;
控制台的输出如下所示
(California,"39)
(Texas,"27)
(Florida,"20)
答案 0 :(得分:1)
我的问题是将数据加载到','中。那就是削减数量。这是通过在\ t
上分离来解决的