我在Gzipped .arc文件上运行MapReduce任务。与此question类似,我遇到了困难,因为Gzip解压缩是自动运行的(因为文件扩展名为.gz),但它会导致newline / carriage-return上的问题被呈现为新行,因为Unix文件编码。这使得输入完全不可读,因为它取决于文件中嵌入的特定字符数。我正在尝试禁用Gzip解压缩,因此我可以在我的映射器中正确地执行此操作。我试过了:
-jobconf stream.recordreader.compression=none
但这似乎不会影响压缩。有什么方法可以防止我输入Gzip解压缩吗?
谢谢,-Geoff
答案 0 :(得分:2)
我已经确定了潜在的问题,并解决了您引用的问题:
基本上它是PipeMapper.java中的一个问题,你可以轻松修改