如何使用LZO以外的压缩处理Hadoop Map / Reduce中的协议缓冲区文件?

时间:2013-02-22 00:22:30

标签: hadoop gzip protocol-buffers lzo xz

我想使用Hadoop Map / Reduce来处理使用LZO以外的东西压缩的delimited协议缓冲区文件,例如: xzgzip。 Twitter的大象库似乎主要支持读取LZO压缩的protobuf文件,因此似乎不符合我的需求。是否有现有的库或标准方法来执行此操作?

注意:正如您通过我选择的压缩算法所看到的,解决方案没有必要使protobuf文件可拆分。您的答案甚至不需要指定特定的压缩算法,但应该允许我提到的至少一个。)

1 个答案:

答案 0 :(得分:1)

您可能需要查看Hadoop的RAgzip补丁,以处理大型gzip压缩文件的多个地图任务:RAgzip