在Hadoop上拆分文件

时间:2015-09-24 16:48:49

标签: hadoop split csplit

我在hadoop集群上有一个8.8G文件,我试图提取某些行以进行测试。

看到Apache Hadoop 2.6.0没有拆分命令,我怎么能在不下载文件的情况下完成。

如果文件在Linux服务器上,我会使用:

$ csplit filename %2015-07-17%

上一个命令是否按预期工作,在Hadoop上接近可能吗?

1 个答案:

答案 0 :(得分:0)

您可以使用unix和hdfs命令的组合。

hadoop fs -cat filename.dat | head -250 > /redirect/filename

或者如果文件的最后一个KB足够,你可以使用它。

hadoop fs -tail filename.dat > /redirect/filename