ElasticMapReduce流式压缩输出

时间:2014-11-03 23:38:04

标签: hadoop boto amazon-emr

我正在运行流媒体作业,使用地图和减少的python脚本。我使用boto库创建的作业流程。

我正在使用gzip输入文件。但是,如何创建gzip输出文件呢?

1 个答案:

答案 0 :(得分:0)

我使用java来处理gzip文件并在gzip压缩中生成输出。我使用下面的代码

    FileOutputFormat.setCompressOutput(job, true);
    FileOutputFormat.setOutputCompressorClass(job, GzipCodec.class);  
    FileOutputFormat.setOutputPath(job, output path));

我希望你能在python中找到类似的API /代码。

您可以生成gzip文件作为生成的输出。将'-D mapred.output.compress = true -D mapred.output.compression.codec = org.apache.hadoop.io.compress.GzipCodec'作为流媒体作业的选项。