如何在hadoop中禁用本机zlib压缩库

时间:2016-10-22 15:24:20

标签: java hadoop apache-spark zlib gz

我有大量以gz格式存储的文件,并尝试通过读取这些文件来运行map-reduce程序(使用PIG)。我遇到的问题是,Hadoop中的本机解压缩程序(ZlibDecompressor)由于数据检查而无法成功解压缩其中的一部分。但我能够使用java GZIPInputStream成功读取这些文件。现在我的问题是 - 有没有办法禁用Zlib?或者在hadoop(2.7.2)中是否有任何替代GZipCodec可用于解压缩gzip输入文件?

以下错误

org.apache.hadoop.mapred.TaskAttemptListenerImpl: Task: attempt_1475882463863_0108_m_000022_0 - exited : java.io.IOException: incorrect data check
   at org.apache.hadoop.io.compress.zlib.ZlibDecompressor.inflateBytesDirect(Native Method)
   at org.apache.hadoop.io.compress.zlib.ZlibDecompressor.decompress(ZlibDecompressor.java:228)
   at org.apache.hadoop.io.compress.DecompressorStream.decompress(DecompressorStream.java:91)
   at org.apache.hadoop.io.compress.DecompressorStream.read(DecompressorStream.java:85)
   at java.io.InputStream.read(InputStream.java:101)
   at org.apache.hadoop.util.LineReader.fillBuffer(LineReader.java:180)
   at org.apache.hadoop.util.LineReader.readDefaultLine(LineReader.java:216)
   at org.apache.hadoop.util.LineReader.readLine(LineReader.java:174)

非常感谢你的帮助。

1 个答案:

答案 0 :(得分:1)

我自己找到了答案。您可以设置以下属性以禁用所有本机库。

  

io.native.lib.available = FALSE;

或者您可以扩展org.apache.hadoop.io.compress.GzipCodec.java以仅为GzipCompressor删除本机实现。