控制要写入输出文件的行数

时间:2011-09-28 01:33:57

标签: hadoop

我是Hadoop编程的新手。

我有一种情况,我希望在n行之后停止将<k3,v3>写入我的输出文件。

在我的程序中,我确信输出文件将根据k3进行排序,但我不想要整个列表。我只想要第一个n。

Hadoop中是否有机制来执行此操作?

1 个答案:

答案 0 :(得分:0)

我找不到相同的Class / API。

但是,在Reduce函数中调用OutputCollector.collect()时,可以增加一个Counter。当计数器达到某个值时,停止调用OutputCollector.collect()。

这是浪费CPU周期,因为即使在将n行写入o / p后,reduce任务仍继续运行。可能有更好的方法解决这个问题。