Question

我有一个如下所示的CSV文件，为此我需要在hadoop中应用数据清理技术。该文件包含成千上万条记录，但是为了简便起见，我仅给出了4条记录。

field1,field2,field3,field4
1,abc,def,ghi
4,ijk,
,lmn
5,,opq,rst
8,
uvw,,xyz
10,hjg,jsh,nbm

我希望输出结果为

field1,field2,field3,field4
1,abc,def,ghi
4,ijk,,lmn
5,,opq,rst
8,uvw,,xyz
10,hjg,jsh,nbm

我是hadoop的新手。在Hadoop中最好，轻松和最佳的方式是什么？它可以在Hive中使用吗？

一旦实现，如果有任何特殊字符，我需要用空格替换。

Answer 1

为什么您的记录在这样的不同行中？ 4，ijk，，lmn

我能想到的（如果您非常了解scala）是

在CSV文件顶部创建平面图。逗号分隔

For循环-将数据移动到4个元素的数组中，

到达第4位后，转到下一行