Hadoop:计算频率然后在第二个map / reduce中设置变量

时间:2015-05-27 13:46:03

标签: java hadoop mapreduce

在单个Hadoop程序中,我有三个Map / Reduce作业。第一个应该计算我的数据集中的单词总数。第二个和第三个Map / Reduce根据第一个Map / Reduce中的数字执行其他操作。有没有办法将第一个Map / Reduce的输出设置为一个全局变量,以便在整个程序的其余部分使用?

我的第一个想法是让第一个Reduce步骤将数字写为输出,然后让第二个Mapper读取此文件,但我宁愿不这样做。

2 个答案:

答案 0 :(得分:0)

你可以在一份工作中设置这三份工作吗?您可以定义一个全局变量来统计数字。

答案 1 :(得分:0)

尝试按照以下步骤操作,在同一个类文件中编写三个map / reduce方法。 enter image description here