我有一些由MapReduce输出的lzo压缩文件,它们将用于另一项工作。所有这些文件都被编入索引,我将LzoTextInputFormat设置为inputformat类。
我的问题是:
使用这些lzo文件时,如何处理记录/行边界?
记录/行可以截断为两个相邻的压缩块。如果两个相邻的块在逻辑上被分割成不同的Mapper,则很难确定不完整的记录/行并将这两个部分组合在一起。
有人可以帮助我吗?
答案 0 :(得分:1)
使用SequenceFile。 SequenceFile使用同步标记写入压缩块。因此,seqfiles是可拆分的。