Google数据流的工作流程编排

时间:2016-08-17 21:14:42

标签: hadoop workflow google-cloud-platform google-cloud-dataflow azkaban

我们正在使用Google Dataflow进行批量数据处理,并寻找工作流程编排工具的一些选项,类似于Azkaban为Hadoop所做的工作。

我们正在寻找的关键事项是,

  • 配置工作流程
  • 安排工作流程
  • 监控并警告失败的工作流程
  • 重新运行失败作业的能力

我们已对Pentaho进行了评估,但这些功能在其企业版中可用,而且价格昂贵。 我们目前正在评估Azkaban,因为它支持javaprocess作业类型。但Azkaban主要是为Hadoop工作创建的,因此它与Hadoop基础设施进行了更深入的集成,然后是普通的javaprocesses。

对开源或极低成本解决方案提出一些建议。

2 个答案:

答案 0 :(得分:1)

听起来Apache Airflow(https://github.com/apache/incubator-airflow)应该满足您的需求,现在它有一个Dataflow运算符(https://github.com/apache/incubator-airflow/blob/master/airflow/contrib/operators/dataflow_operator.py)。

答案 1 :(得分:0)

要编排Google数据流,我们可以使用Cloud composer,它是基于Apache Airflow构建的托管工作流程编排服务。它提供了更大的灵活性,使用它我们可以协调跨本地和公共云的大多数google服务和工作流。