我正在使用Hadoop Archive来减少Hadoop群集中的文件数量,但是为了保留数据,我希望尽可能长时间地保留数据。然后问题是Hadoop Archive没有减小文件夹大小(我的文件夹有多种类型的文件,无论是小文件还是大文件,都不适合使用序列文件)。
我使用了-D mapreduce.compress.map.output=true -D mapred.map.ouput.compress.codec=org.apache.hadoop.io.compress.GzipCodec
之类的选项,但它不起作用。
有没有人知道Hadoop Archive的压缩输出方法,或者建议我获得两个目标(压缩大小和减少文件数量)。
任何信息都表示赞赏。非常感谢。
答案 0 :(得分:0)
您可以在压缩目录
上使用mapred compress并运行har