从文件夹中删除所有空的.bz2文件

时间:2017-07-25 11:31:18

标签: compression bz2

我有.bz2文件的文件夹(实际上是在HDFS上,但我认为这不会影响问题)。解压缩时的一些提供单个空文件。我想删除所有解压缩为空的.bz2文件,我注意到它们都有14个字节的大小。简单地删除所有14字节文件是否安全?或者非空文件是否可以从14字节bz2压缩/解压缩?

2 个答案:

答案 0 :(得分:0)

BZ2是Bzip 2使用的压缩文件格式.Bzip 2是由Julian Seward创建的开放式免费压缩程序。 BZ2文件使用Burrows-Wheeler压缩算法结合运行长度编码(RLE)来实现最大压缩。link

如果您想删除这些文件,请先使用以下代码段获取.gz文件的详细信息。

解压缩gz2文件

gunzip -c test.bz2 | hadoop fs -put - /path/filepath

阅读内容

hadoop fs -text /path_for_hdfs/test.bz2 | hadoop fs -put /hdfs_path/abc.txt

答案 1 :(得分:0)

我创建了一个空文本文件,并使用bzip2压缩并插入到hdfs中。 空bzip2文件的大小为14B。 当我对非空文件(仅一个字符)执行相同操作时,它是39字节。

我的结论是所有14B bzip2文件都是空的。

根据测试用例做出自己的想法......

enter image description here