如何创建跨越两个文件的hadoop输入拆分?

时间:2012-10-29 15:20:04

标签: hadoop

我的数据输入文件长度都相同,但其中的记录可能跨越两个文件(从第一个文件的末尾开始,到第二个文件的开头结束)。

是否可以创建一个允许我跨越这两个文件的inputsplit?

最好是创建一组全新的文件,以便记录不会跨越多个文件吗?

1 个答案:

答案 0 :(得分:1)

我肯定会确保你的记录不会超过一个文件:从理论上讲,你可以编写自己的输入格式来处理这个问题,但是开销可能会很大,因为你必须确保 知道哪些文件属于一起 - 接管了jobtracker和name node为您完成的部分责任。

您应该可以自由地告诉jobtracker / name节点输入的位置,并且为了使处理真正并行,您不希望必须 返回 一些控件:恕我直言,它首先会部分地击败使用haoop的对象。