如何处理MapReduce中可拆分lzo文件的记录/行边界?

时间:2012-11-02 12:37:00

标签: hadoop mapreduce

我有一些由MapReduce输出的lzo压缩文件,它们将用于另一项工作。所有这些文件都被编入索引,我将LzoTextInputFormat设置为inputformat类。

我的问题是:

使用这些lzo文件时,如何处理记录/行边界?

记录/行可以截断为两个相邻的压缩块。如果两个相邻的块在逻辑上被分割成不同的Mapper,则很难确定不完整的记录/行并将这两个部分组合在一起。

有人可以帮助我吗?

1 个答案:

答案 0 :(得分:1)

使用SequenceFile。 SequenceFile使用同步标记写入压缩块。因此,seqfiles是可拆分的。