使用pig或hadoop流,有没有人加载和解压缩压缩文件?使用pkzip压缩了原始csv文件。
答案 0 :(得分:1)
不确定这是否有帮助,因为它主要集中在Java中使用MapReduce,但hadoop中有一个ZipFileInputFormat。这里描述了它通过Java API的用法:
http://cotdp.com/2012/07/hadoop-processing-zip-files-in-mapreduce/
这是ZipFileRecordReader的主要部分,它使用Javas ZipInputStream来处理每个ZipEntry。 Hadoop阅读器可能无法为您提供开箱即用的功能,因为它将每个ZipEntry的文件路径作为键传递,将ZipEntry内容作为值传递。