Hadoop多次读取输入分割

时间:2012-09-23 10:14:33

标签: input hadoop split iteration regression

我需要迭代多次输入分割 。 我需要这个的原因超出了这个问题的范围。让我们假设我只需要它(一个简短的解释是我需要多次使用输入拆分来填充数据结构,并且拆分可能足够大,以便在第一次迭代之后它不能容纳在内存中)

我想我可以做一些技巧,例如扩展FileInputFormatRecordReader以便多次服务,但我想知道是否有任何“标准”的做法它在Hadoop中。 我不知道在Hadoop中实现这一目标的任何标准方法,但可能我错过了一些东西。

有什么想法吗?

1 个答案:

答案 0 :(得分:0)

在多次通过拆分的过程中,您希望对该数据结构做什么? (查找,更新等)

你是否尝试过parallel-izig与一些早期的hadoop工作,甚至是一些猪脚本的行动?