应用错误收集

Map Reduce保持输入顺序

时间：2012-11-17 20:42:45

标签： hadoop mapreduce

我尝试使用处理文本文件的hadoop来实现一个应用程序。问题是我无法保持输入文本的顺序。有没有办法选择哈希函数？这个问题可以通过分配一个分区来轻松解决每个映射器的输入然后将分区发送到redurs.Is这可能与hadoop？

1 个答案:

答案 0 :(得分：2)

MapReduce的基本思想是完成任务的顺序无关紧要。所以你不能（也不需要）控制下面的顺序：

输入记录通过映射器。
密钥和相关值通过reducer。

您唯一可以控制的是值在减速器中可用的迭代器中的顺序。这是使用称为“二级排序”的构造完成的。

this term的简单Google操作导致了几个可以继续的点。我喜欢这篇博文：link