应用错误收集

何时将数据输出文件写入地图缩减架构？如何在reducer中使用已处理的reducer输出数据？

时间：2012-05-06 06:37:01

标签： hadoop mapreduce

我使用的是hadoop版本：1.0.0

处理完每个reducer输入键后，我正在收集输出。但它没有写入实际的输出文件。我正在尝试使用已处理的中间输出来处理更多输入键。我该怎么办？

您能否建议我如何使用该中间数据。什么时候mapreduce将数据写入输出文件？。

1 个答案:

答案 0 :(得分：0)

你问的是反对MR范式的东西。而且，因为任何偏离概念都有其后果。
从技术上讲，数据传递给OutputFormat，他可以自行决定将其推送到输出。我认为这是在工作期间写的，但在看到之前你可能会有一些延迟。
我认为你可以更容易地在reducer中累积处理过的数据并使用它，尽管这个解决方案有一些不可思议的问题。如果有钥匙，你可能会面临内存不足。
我建议使用两个MR作业，或其他一些技术来使减速器无状态或至少限制它可以累积的数据量。