我有一个如下所示的CSV文件,为此我需要在hadoop中应用数据清理技术。该文件包含成千上万条记录,但是为了简便起见,我仅给出了4条记录。
field1,field2,field3,field4
1,abc,def,ghi
4,ijk,
,lmn
5,,opq,rst
8,
uvw,,xyz
10,hjg,jsh,nbm
我希望输出结果为
field1,field2,field3,field4
1,abc,def,ghi
4,ijk,,lmn
5,,opq,rst
8,uvw,,xyz
10,hjg,jsh,nbm
我是hadoop的新手。在Hadoop中最好,轻松和最佳的方式是什么?它可以在Hive中使用吗?
一旦实现,如果有任何特殊字符,我需要用空格替换。
答案 0 :(得分:0)
为什么您的记录在这样的不同行中? 4,ijk, ,lmn
我能想到的(如果您非常了解scala)是
在CSV文件顶部创建平面图。 逗号分隔
For循环-将数据移动到4个元素的数组中,
到达第4位后,转到下一行