在AWS Elastic Map Reduce中禁用Gzip输入解压缩

时间:2012-03-28 01:15:32

标签: hadoop amazon-web-services mapreduce compression amazon-emr

我在Gzipped .arc文件上运行MapReduce任务。与此question类似,我遇到了困难,因为Gzip解压缩是自动运行的(因为文件扩展名为.gz),但它会导致newline / carriage-return上的问题被呈现为新行,因为Unix文件编码。这使得输入完全不可读,因为它取决于文件中嵌入的特定字符数。我正在尝试禁用Gzip解压缩,因此我可以在我的映射器中正确地执行此操作。我试过了:

 -jobconf stream.recordreader.compression=none

但这似乎不会影响压缩。有什么方法可以防止我输入Gzip解压缩吗?

谢谢,-Geoff

1 个答案:

答案 0 :(得分:2)

我已经确定了潜在的问题,并解决了您引用的问题:

基本上它是PipeMapper.java中的一个问题,你可以轻松修改