hadoop 0.20.203的MapFileOutputFormat

时间:2011-12-05 20:39:50

标签: hadoop

我有一个hadoop作业,我想输出到MapFile,但我必须在运行hadoop 0.20.203的集群上运行,该集群没有MapFileOutputFormat。有没有办法将SequenceFileOutputFormat(我认为可能包含多个SequenceFiles)的输出并行转换为MapFile(可能非常大)? 那么一个ArrayFile(如果键都是整数并且相对压缩)

1 个答案:

答案 0 :(得分:1)

MapFileOutputFormat是在0.20.203。无需从SequenceFile转换为MapFile。

仅供参考,可以通过打开SequenceFile并使用MapFile#fix来完成SequenceFile到MapFile的转换,这将为SequenceFile创建索引。这样做的前提是应该对SequenceFile的内容进行排序,可以为此创建MR作业。 zip中的MapFileFixer.java包含示例代码。