HDFS TSV到命名文件

时间:2019-07-12 22:29:30

标签: apache-spark mapreduce hdfs

我在HDFS上有一组TSV文件,其结构如下:

g1  a
g1  b
g1  c
g2  a
g2  x
g2  y
g3  b
g3  d
...

我想将这些文件转换为名为hdfs:///tmp/g1.tsvhdfs:///tmp/g2.tsvhdfs:///tmp/g3.tsv的文件,以便...

g1.tsv如下:

a
b
c

g2.tsv如下:

a
x

g3.tsv如下:

b
d

这些文件很大,我想尽可能重命名。是否有一个简单的MapReduce作业,Spark作业或HDFS文件操作来执行此操作?

0 个答案:

没有答案