在单个Hadoop程序中,我有三个Map / Reduce作业。第一个应该计算我的数据集中的单词总数。第二个和第三个Map / Reduce根据第一个Map / Reduce中的数字执行其他操作。有没有办法将第一个Map / Reduce的输出设置为一个全局变量,以便在整个程序的其余部分使用?
我的第一个想法是让第一个Reduce步骤将数字写为输出,然后让第二个Mapper读取此文件,但我宁愿不这样做。
答案 0 :(得分:0)
你可以在一份工作中设置这三份工作吗?您可以定义一个全局变量来统计数字。
答案 1 :(得分:0)
尝试按照以下步骤操作,在同一个类文件中编写三个map / reduce方法。