我使用distcp
将数据从S3移动到在Ubuntu EC2实例上运行的Hadoop v 2.7.0群集,并试图通过压缩来实现。文件按预期传输,但文件大小根本没有变化。这是命令:
hadoop distcp -D mapreduce.output.fileoutputformat.compress=true \
-D mapreduce.output.fileoutputformat.compression.codec=org.apache.hadoop.io.compress.SnappyCodec \
-D mapred.output.fileoutputformat.compression.type=BLOCK \
-D fs.s3a.fast.upload=true \
s3a://tpch21713/customer.tbl /tpch/customer.tbl
我下载了一些源文件,并且能够使用记事本阅读它们,所以我不认为它们已经被压缩了。有关相关信息,请参阅此链接:https://community.hortonworks.com/questions/59868/distcp-compression-not-working.html
请帮忙!