Apache-Pig,转换子组

时间:2017-08-29 17:13:43

标签: hadoop apache-pig

我开始使用Apache pig,我正在尝试转换csv文件。

如果输入如下:

1,A,10,SS,11
 ,B,11,BB,12
 ,D,12,TT,13
2,A,20,GG,11
 ,C,22,YY,9
 ,E,30,  ,

是否可以进入下面的输出?

Number, Type1, Value, Type2, Value,
     1,     A,    10,    SS,    11,
     1,     B,    11,    BB,    12,
     1,     D,    12,    TT,    13, 
     2,     A,    20,    GG,    11,
     2,     C,    22,    YY,     9, 
     2,     E,    30,      ,      , 

CSV包含由第一列中的数字标识的部分。第二列中的值在每个部分中都是可变的。每个部分之间的行数也是可变的。

Apache-Pig是解决此类问题的好工具吗?有人会如何处理这类信息?

1 个答案:

答案 0 :(得分:0)

首先使用bash shell脚本处理这个C​​SV文件,就像有空的地方一样,使用sed或awk添加非空值,然后将修改后的文件放入HDFS ..从那里你可以开始使用转换猪。