Question

我在hadoop集群上有一个8.8G文件，我试图提取某些行以进行测试。

看到Apache Hadoop 2.6.0没有拆分命令，我怎么能在不下载文件的情况下完成。

如果文件在Linux服务器上，我会使用：

$ csplit filename %2015-07-17%

上一个命令是否按预期工作，在Hadoop上接近可能吗？

Answer 1

您可以使用unix和hdfs命令的组合。

hadoop fs -cat filename.dat | head -250 > /redirect/filename

或者如果文件的最后一个KB足够，你可以使用它。

hadoop fs -tail filename.dat > /redirect/filename