在hadoop中添加对Zip文件的支持

时间:2015-03-23 13:53:53

标签: hadoop zip hadoop-streaming hadoop2

Hadoop默认支持读取.gz压缩文件,我希望对.zip文件有类似的支持。我应该能够使用hadoop -text命令读取zip文件的内容。

我正在寻找一种方法,我不必为zip文件实现inputformat和recordreader。我希望我的作业完全不知道输入文件的格式,它应该工作,无论数据是压缩还是解压缩。与for.gz文件类似。

1 个答案:

答案 0 :(得分:1)

我很抱歉地说,我只看到了两种方法来实现这一目标。" hadoop,使用自定义inputformat和基于ZipInputStream的记录阅读器(你明确指出你不感兴趣),或者通过检测.zip输入文件并在启动作业之前解压缩它们。

我个人会从hadoop外部执行此操作,在运行作业之前通过脚本转换为gzip(或LZO索引,如果我需要可拆分文件),但你肯定已经考虑过了......

我也有兴趣看看是否有人能想出一个意想不到的答案。