我需要迭代多次输入分割 。 我需要这个的原因超出了这个问题的范围。让我们假设我只需要它(一个简短的解释是我需要多次使用输入拆分来填充数据结构,并且拆分可能足够大,以便在第一次迭代之后它不能容纳在内存中)
我想我可以做一些技巧,例如扩展FileInputFormat
和RecordReader
以便多次服务,但我想知道是否有任何“标准”的做法它在Hadoop中。
我不知道在Hadoop中实现这一目标的任何标准方法,但可能我错过了一些东西。
有什么想法吗?
答案 0 :(得分:0)
在多次通过拆分的过程中,您希望对该数据结构做什么? (查找,更新等)
你是否尝试过parallel-izig与一些早期的hadoop工作,甚至是一些猪脚本的行动?