标签: hadoop gzip protocol-buffers lzo xz
我想使用Hadoop Map / Reduce来处理使用LZO以外的东西压缩的delimited协议缓冲区文件,例如: xz或gzip。 Twitter的大象库似乎主要支持读取LZO压缩的protobuf文件,因此似乎不符合我的需求。是否有现有的库或标准方法来执行此操作?
xz
gzip
(注意:正如您通过我选择的压缩算法所看到的,解决方案没有必要使protobuf文件可拆分。您的答案甚至不需要指定特定的压缩算法,但应该允许我提到的至少一个。)
答案 0 :(得分:1)
您可能需要查看Hadoop的RAgzip补丁,以处理大型gzip压缩文件的多个地图任务:RAgzip