我在HDFS上有一组TSV文件,其结构如下:
g1 a
g1 b
g1 c
g2 a
g2 x
g2 y
g3 b
g3 d
...
我想将这些文件转换为名为hdfs:///tmp/g1.tsv
,hdfs:///tmp/g2.tsv
和hdfs:///tmp/g3.tsv
的文件,以便...
g1.tsv
如下:
a
b
c
g2.tsv
如下:
a
x
g3.tsv
如下:
b
d
等
这些文件很大,我想尽可能重命名。是否有一个简单的MapReduce作业,Spark作业或HDFS文件操作来执行此操作?