我正在运行流媒体作业,使用地图和减少的python脚本。我使用boto库创建的作业流程。
我正在使用gzip输入文件。但是,如何创建gzip输出文件呢?
答案 0 :(得分:0)
我使用java来处理gzip文件并在gzip压缩中生成输出。我使用下面的代码
FileOutputFormat.setCompressOutput(job, true);
FileOutputFormat.setOutputCompressorClass(job, GzipCodec.class);
FileOutputFormat.setOutputPath(job, output path));
我希望你能在python中找到类似的API /代码。
您可以生成gzip文件作为生成的输出。将'-D mapred.output.compress = true -D mapred.output.compression.codec = org.apache.hadoop.io.compress.GzipCodec'作为流媒体作业的选项。