压缩Hadoop存档工具的输出

时间:2016-07-04 09:55:41

标签: hadoop yarn hadoop-archive bigdata

我正在使用Hadoop Archive来减少Hadoop群集中的文件数量,但是为了保留数据,我希望尽可能长时间地保留数据。然后问题是Hadoop Archive没有减小文件夹大小(我的文件夹有多种类型的文件,无论是小文件还是大文件,都不适合使用序列文件)。

我使用了-D mapreduce.compress.map.output=true -D mapred.map.ouput.compress.codec=org.apache.hadoop.io.compress.GzipCodec之类的选项,但它不起作用。

有没有人知道Hadoop Archive的压缩输出方法,或者建议我获得两个目标(压缩大小和减少文件数量)。

任何信息都表示赞赏。非常感谢。

1 个答案:

答案 0 :(得分:0)

您可以在压缩目录

上使用mapred compress并运行har