在hadoop中查看gzip压缩文件内容

时间:2015-08-12 14:39:30

标签: hadoop

如何在hdfs中解压缩并查看压缩文件的几行。 以下命令显示压缩数据的最后几行

hadoop fs -tail /myfolder/part-r-00024.gz

有没有办法可以使用-text命令并将输出传递给tail命令?我试过这个,但这不起作用。

hadoop fs -text /myfolder/part-r-00024.gz > hadoop fs -tail /myfolder/

4 个答案:

答案 0 :(得分:11)

以下内容将显示指定的行数而不解压缩整个文件:

hadoop fs -cat /hdfs_location/part-00000.gz | zcat | head -n 20

以下内容将对文件进行分页,也无需先解压缩整个文件:

hadoop fs -cat /hdfs_location/part-00000.gz | zmore

答案 1 :(得分:2)

尝试以下操作,只要你的文件不是太大就应该工作(因为整个事情都会被解压缩):

hadoop fs -text /myfolder/part-r-00024.gz | tail

答案 2 :(得分:1)

我最后写了一个猪脚本。

A = LOAD '/myfolder/part-r-00024.gz' USING PigStorage('\t');
B = LIMIT A 10;
DUMP B;

答案 3 :(得分:0)

使用gunzip查看压缩文件的内容:

 hdfs dfs -cat /path/filename.gz | gunzip