Hadoop distcp压缩

时间:2018-06-13 15:37:52

标签: amazon-s3 compression hadoop2

我使用distcp将数据从S3移动到在Ubuntu EC2实例上运行的Hadoop v 2.7.0群集,并试图通过压缩来实现。文件按预期传输,但文件大小根本没有变化。这是命令:

hadoop distcp -D mapreduce.output.fileoutputformat.compress=true \ -D mapreduce.output.fileoutputformat.compression.codec=org.apache.hadoop.io.compress.SnappyCodec \ -D mapred.output.fileoutputformat.compression.type=BLOCK \ -D fs.s3a.fast.upload=true \ s3a://tpch21713/customer.tbl /tpch/customer.tbl

我下载了一些源文件,并且能够使用记事本阅读它们,所以我不认为它们已经被压缩了。有关相关信息,请参阅此链接:https://community.hortonworks.com/questions/59868/distcp-compression-not-working.html

请帮忙!

0 个答案:

没有答案