我是Hadoop编程的新手。
我有一种情况,我希望在n行之后停止将<k3,v3>
写入我的输出文件。
在我的程序中,我确信输出文件将根据k3
进行排序,但我不想要整个列表。我只想要第一个n。
Hadoop中是否有机制来执行此操作?
答案 0 :(得分:0)
我找不到相同的Class / API。
但是,在Reduce函数中调用OutputCollector.collect()时,可以增加一个Counter。当计数器达到某个值时,停止调用OutputCollector.collect()。
这是浪费CPU周期,因为即使在将n行写入o / p后,reduce任务仍继续运行。可能有更好的方法解决这个问题。