应用错误收集

控制要写入输出文件的行数

时间：2011-09-28 01:33:57

标签： hadoop

我是Hadoop编程的新手。

我有一种情况，我希望在n行之后停止将<k3,v3>写入我的输出文件。

在我的程序中，我确信输出文件将根据k3进行排序，但我不想要整个列表。我只想要第一个n。

Hadoop中是否有机制来执行此操作？

1 个答案:

答案 0 :(得分：0)

我找不到相同的Class / API。

但是，在Reduce函数中调用OutputCollector.collect()时，可以增加一个Counter。当计数器达到某个值时，停止调用OutputCollector.collect（）。

这是浪费CPU周期，因为即使在将n行写入o / p后，reduce任务仍继续运行。可能有更好的方法解决这个问题。