你可以使用带有gzip压缩输入的s3distcp吗?

时间:2015-08-26 05:25:44

标签: hadoop amazon-web-services hadoop-streaming distcp

我试图使用s3distcp来编写很多小的gzip压缩文件,但遗憾的是这些文件不会以gz扩展名结尾。 s3distcp有一个outputCodec参数,可用于压缩输出,但没有相应的inputCodec。我尝试将--jobconf与hadoop流式呼叫一起使用,但它似乎没有做任何事情(输出仍然是gzip压缩)。我使用的命令是

hadoop jar lib/emr-s3distcp-1.0.jar -Dstream.recordreader.compression=gzip \
           --src s3://inputfolder --dest hdfs:///data

任何想法可能会发生什么?我正在运行AWS EMR AMI-3.9。

0 个答案:

没有答案