Hadoop猪或流媒体和Zip文件

时间:2012-10-05 00:04:09

标签: hadoop apache-pig hadoop-streaming

使用pig或hadoop流,有没有人加载和解压缩压缩文件?使用pkzip压缩了原始csv文件。

1 个答案:

答案 0 :(得分:1)

不确定这是否有帮助,因为它主要集中在Java中使用MapReduce,但hadoop中有一个ZipFileInputFormat。这里描述了它通过Java API的用法:

http://cotdp.com/2012/07/hadoop-processing-zip-files-in-mapreduce/

这是ZipFileRecordReader的主要部分,它使用Javas ZipInputStream来处理每个ZipEntry。 Hadoop阅读器可能无法为您提供开箱即用的功能,因为它将每个ZipEntry的文件路径作为键传递,将ZipEntry内容作为值传递。