我开始使用Apache pig,我正在尝试转换csv文件。
如果输入如下:
1,A,10,SS,11
,B,11,BB,12
,D,12,TT,13
2,A,20,GG,11
,C,22,YY,9
,E,30, ,
是否可以进入下面的输出?
Number, Type1, Value, Type2, Value,
1, A, 10, SS, 11,
1, B, 11, BB, 12,
1, D, 12, TT, 13,
2, A, 20, GG, 11,
2, C, 22, YY, 9,
2, E, 30, , ,
CSV包含由第一列中的数字标识的部分。第二列中的值在每个部分中都是可变的。每个部分之间的行数也是可变的。
Apache-Pig是解决此类问题的好工具吗?有人会如何处理这类信息?
答案 0 :(得分:0)
首先使用bash shell脚本处理这个CSV文件,就像有空的地方一样,使用sed或awk添加非空值,然后将修改后的文件放入HDFS ..从那里你可以开始使用转换猪。