由于oozie是Hadoop平台的工作流引擎,它是否提高了MapReduce作业的DAG依赖项的执行性能?
我的意思是,由于一个MapReduce作业的输出被作为DAG中下一个MapReduce作业的输入,oozie是否提供了将中间结果存储在内存中的任何机制,从而节省了I / O.
或者它只是一个工作流管理器,它协调一系列相关的MapReduce?
想知道内部oozie是如何运作的?
答案 0 :(得分:1)
它只是一个工作流程管理器。即使它运行M / R作业,它也不会改变MapReduce的工作方式。
你所描述的更像是Apache Spark所做的。我不知道Oozie直接与Spark集成,但是,它可能不会很困难或远远不够。
答案 1 :(得分:0)
它只是“一个工作流管理器,它协调一系列MapReduce”作业。它使用与使用命令行相同的机制来执行作业。