如何在mapper中缓存所有数据记录并在最后处理它们?

时间:2013-12-24 18:36:04

标签: hadoop mapreduce

我有一个map-reduce作业,映射器负责聚类数据记录。读取数据记录时,我将其添加到list。如何知道何时读取所有数据记录,我可以开始聚类list

1 个答案:

答案 0 :(得分:0)

Mapper接口提供cleanup方法,在任务完成时调用该方法。您可以将其用作钩子来触发您需要使用list对象执行的任何其他逻辑。我不得不问,为什么不使用Reducer任务来执行此处理?