我在hadoop集群上有一个8.8G文件,我试图提取某些行以进行测试。
看到Apache Hadoop 2.6.0没有拆分命令,我怎么能在不下载文件的情况下完成。
如果文件在Linux服务器上,我会使用:
$ csplit filename %2015-07-17%
上一个命令是否按预期工作,在Hadoop上接近可能吗?
答案 0 :(得分:0)
您可以使用unix和hdfs命令的组合。
hadoop fs -cat filename.dat | head -250 > /redirect/filename
或者如果文件的最后一个KB足够,你可以使用它。
hadoop fs -tail filename.dat > /redirect/filename