hdfs文件中的数据清理要求

时间:2018-09-21 21:03:03

标签: scala hive

我有一个如下所示的CSV文件,为此我需要在hadoop中应用数据清理技术。该文件包含成千上万条记录,但是为了简便起见,我仅给出了4条记录。

field1,field2,field3,field4
1,abc,def,ghi
4,ijk,
,lmn
5,,opq,rst
8,
uvw,,xyz
10,hjg,jsh,nbm

我希望输出结果为

field1,field2,field3,field4
1,abc,def,ghi
4,ijk,,lmn
5,,opq,rst
8,uvw,,xyz
10,hjg,jsh,nbm

我是hadoop的新手。在Hadoop中最好,轻松和最佳的方式是什么?它可以在Hive中使用吗?

一旦实现,如果有任何特殊字符,我需要用空格替换。

1 个答案:

答案 0 :(得分:0)

为什么您的记录在这样的不同行中? 4,ijk, ,lmn

我能想到的(如果您非常了解scala)是

在CSV文件顶部创建平面图。 逗号分隔

For循环-将数据移动到4个元素的数组中,

到达第4位后,转到下一行