何时将数据输出文件写入地图缩减架构?如何在reducer中使用已处理的reducer输出数据?

时间:2012-05-06 06:37:01

标签: hadoop mapreduce

我使用的是hadoop版本:1.0.0

处理完每个reducer输入键后,我正在收集输出。但它没有写入实际的输出文件。我正在尝试使用已处理的中间输出来处理更多输入键。我该怎么办?

您能否建议我如何使用该中间数据。什么时候mapreduce将数据写入输出文件?。

1 个答案:

答案 0 :(得分:0)

你问的是反对MR范式的东西。而且,因为任何偏离概念都有其后果。
从技术上讲,数据传递给OutputFormat,他可以自行决定将其推送到输出。我认为这是在工作期间写的,但在看到之前你可能会有一些延迟。
我认为你可以更容易地在reducer中累积处理过的数据并使用它,尽管这个解决方案有一些不可思议的问题。如果有钥匙,你可能会面临内存不足。
我建议使用两个MR作业,或其他一些技术来使减速器无状态或至少限制它可以累积的数据量。