让我们说多个MapReduce作业被链接,如下所示。
{{1}}
每个MapReduce作业的输出是否都会写入HDFS?例如,Map1-Reduce1的输出是否会写入HDFS?如果Map2-Reduce2中的任务失败,可以通过读取已经在HDFS中的Map1-Reduce1的输出来重启Map2-Reduce2。
答案 0 :(得分:0)
您可以通过扩展Configured
类并编写多个作业配置来实现此目的,即每个M-R
一个。一个outputpath
个实例的m-r
将作为第二个实例的输入。
是的,您可以使用oozie
通过MapR
将输出从一个HDFS
序列化到另一个ChainMapper
。您应该在Hadoop中签出{{1}}课程。
答案 1 :(得分:0)
您可以使用oozie或Spring Batch都适合您的解决方案。您可以将每个步骤的输出写入HDFS,然后在下一个Map Reduce Job中回读。