我的数据输入文件长度都相同,但其中的记录可能跨越两个文件(从第一个文件的末尾开始,到第二个文件的开头结束)。
是否可以创建一个允许我跨越这两个文件的inputsplit?
最好是创建一组全新的文件,以便记录不会跨越多个文件吗?
答案 0 :(得分:1)
我肯定会确保你的记录不会超过一个文件:从理论上讲,你可以编写自己的输入格式来处理这个问题,但是开销可能会很大,因为你必须确保 你 知道哪些文件属于一起 - 接管了jobtracker和name node为您完成的部分责任。
您应该可以自由地告诉jobtracker / name节点输入的位置,并且为了使处理真正并行,您不希望必须 返回 一些控件:恕我直言,它首先会部分地击败使用haoop的对象。