我使用的是hadoop版本:1.0.0
处理完每个reducer输入键后,我正在收集输出。但它没有写入实际的输出文件。我正在尝试使用已处理的中间输出来处理更多输入键。我该怎么办?
您能否建议我如何使用该中间数据。什么时候mapreduce将数据写入输出文件?。
答案 0 :(得分:0)
你问的是反对MR范式的东西。而且,因为任何偏离概念都有其后果。
从技术上讲,数据传递给OutputFormat,他可以自行决定将其推送到输出。我认为这是在工作期间写的,但在看到之前你可能会有一些延迟。
我认为你可以更容易地在reducer中累积处理过的数据并使用它,尽管这个解决方案有一些不可思议的问题。如果有钥匙,你可能会面临内存不足。
我建议使用两个MR作业,或其他一些技术来使减速器无状态或至少限制它可以累积的数据量。