应用错误收集

如何创建跨越两个文件的hadoop输入拆分？

时间：2012-10-29 15:20:04

标签： hadoop

我的数据输入文件长度都相同，但其中的记录可能跨越两个文件（从第一个文件的末尾开始，到第二个文件的开头结束）。

是否可以创建一个允许我跨越这两个文件的inputsplit？

最好是创建一组全新的文件，以便记录不会跨越多个文件吗？

1 个答案:

答案 0 :(得分：1)

我肯定会确保你的记录不会超过一个文件：从理论上讲，你可以编写自己的输入格式来处理这个问题，但是开销可能会很大，因为你必须确保你知道哪些文件属于一起 - 接管了jobtracker和name node为您完成的部分责任。

您应该可以自由地告诉jobtracker / name节点输入的位置，并且为了使处理真正并行，您不希望必须返回一些控件：恕我直言，它首先会部分地击败使用haoop的对象。