应用错误收集

Hadoop多次读取输入分割

时间：2012-09-23 10:14:33

标签： input hadoop split iteration regression

我需要迭代多次输入分割。我需要这个的原因超出了这个问题的范围。让我们假设我只需要它（一个简短的解释是我需要多次使用输入拆分来填充数据结构，并且拆分可能足够大，以便在第一次迭代之后它不能容纳在内存中）

我想我可以做一些技巧，例如扩展FileInputFormat和RecordReader以便多次服务，但我想知道是否有任何“标准”的做法它在Hadoop中。我不知道在Hadoop中实现这一目标的任何标准方法，但可能我错过了一些东西。

有什么想法吗？

1 个答案:

答案 0 :(得分：0)

在多次通过拆分的过程中，您希望对该数据结构做什么？（查找，更新等）

你是否尝试过parallel-izig与一些早期的hadoop工作，甚至是一些猪脚本的行动？