当多个MapReduce作业被链接时,每个作业的输出是否写入HDFS?

时间:2016-10-24 18:19:07

标签: java hadoop mapreduce

让我们说多个MapReduce作业被链接,如下所示。

{{1}}

每个MapReduce作业的输出是否都会写入HDFS?例如,Map1-Reduce1的输出是否会写入HDFS?如果Map2-Reduce2中的任务失败,可以通过读取已经在HDFS中的Map1-Reduce1的输出来重启Map2-Reduce2。

2 个答案:

答案 0 :(得分:0)

您可以通过扩展Configured类并编写多个作业配置来实现此目的,即每个M-R一个。一个outputpath个实例的m-r将作为第二个实例的输入。

是的,您可以使用oozie通过MapR将输出从一个HDFS序列化到另一个ChainMapper。您应该在Hadoop中签出{{1}}课程。

答案 1 :(得分:0)

您可以使用oozie或Spring Batch都适合您的解决方案。您可以将每个步骤的输出写入HDFS,然后在下一个Map Reduce Job中回读。