应用错误收集

压缩Hadoop存档工具的输出

时间：2016-07-04 09:55:41

标签： hadoop yarn hadoop-archive bigdata

我正在使用Hadoop Archive来减少Hadoop群集中的文件数量，但是为了保留数据，我希望尽可能长时间地保留数据。然后问题是Hadoop Archive没有减小文件夹大小（我的文件夹有多种类型的文件，无论是小文件还是大文件，都不适合使用序列文件）。

我使用了-D mapreduce.compress.map.output=true -D mapred.map.ouput.compress.codec=org.apache.hadoop.io.compress.GzipCodec之类的选项，但它不起作用。

有没有人知道Hadoop Archive的压缩输出方法，或者建议我获得两个目标（压缩大小和减少文件数量）。

任何信息都表示赞赏。非常感谢。

1 个答案:

答案 0 :(得分：0)

您可以在压缩目录

上使用mapred compress并运行har