GCP Dataproc集群上的工作流计划

时间:2019-12-02 15:31:51

标签: hadoop airflow google-cloud-dataproc google-cloud-composer oozie-workflow

我有一些复杂的Oozie工作流程,可以从本地Hadoop迁移到GCP Dataproc。工作流程包括shell脚本,Python脚本,Spark-Scala作业,Sqoop作业等。

我遇到了一些潜在的解决方案,这些解决方案结合了我的工作流程调度需求:

  1. Cloud Composer
  2. 具有云计划的Dataproc工作流模板
  3. 在Dataproc自动扩展群集上安装Oozie

请告诉我,从性能,成本和迁移复杂性角度来看,哪种选择最有效。

1 个答案:

答案 0 :(得分:1)

所有3个都是合理的选项(尽管#2 Scheduler + Dataproc最笨拙)。需要考虑几个问题:您的工作流程多久运行一次,您对未使用的VM的容忍度如何,您的Oozie工作流程有多复杂,以及您愿意花多少时间进行迁移?

Dataproc的工作流支持分支/联接,但缺少其他Oozie功能,例如,如何处理工作失败,决策节点等。如果使用其中任何一个,我什至都不会考虑直接迁移到工作流模板并选择#3或下面的混合迁移。

一个很好的起点是混合迁移(这是假设您的集群很少使用)。保持您的Oozie工作流程,并让Composer +工作流程模板与Oozie创建集群,使用init操作来暂存您的Oozie XML文件+作业jar /工件,从工作流中添加单个pig sh作业以通过CLI触发Oozie。 / p>