地图中的输入/输出流减少了链接

时间:2013-08-19 08:06:41

标签: hadoop mapreduce reduce mapper

我需要有关map reduce chaining的帮助。我有一个像这样的地图缩减链

MAP-> reduce->地图

我希望在最后一个映射器

中使用reducer的输出

例如,在我的reducer中,我获得了员工的最高工资,这个值应该在下一个映射器中使用,并找到具有该最大工资值的记录。显然,我的上一个映射器应该得到输出reducer和文件的内容?有可能吗?我该如何解决这个问题?有什么更好的解决方案吗?

1 个答案:

答案 0 :(得分:0)

我不确定我是否理解这个问题,但我会尽力帮助 您已将包含员工工资(让我们称之为input1)的输入减少到输出(让我们称之为output1),如下所示:
Key: someEmployee Value: max salary
现在你想要另一个mapper来映射input1和output1的数据?
如果是这样,你可以选择一个,你可以根据自己的需要选择一个。

  • 操纵第一个减速器输出。以格式
    Key: someEmployee Value: max_salary@@salary_1,salary_2,salary_3...salary_n为格式创建output1的instad 然后创建新作业,并将新的映射器输入设置为output1。

  • 尝试阅读this issue解释如何将多个输入放入一个映射器