我们正在使用Google Dataflow进行批量数据处理,并寻找工作流程编排工具的一些选项,类似于Azkaban为Hadoop所做的工作。
我们正在寻找的关键事项是,
我们已对Pentaho进行了评估,但这些功能在其企业版中可用,而且价格昂贵。 我们目前正在评估Azkaban,因为它支持javaprocess作业类型。但Azkaban主要是为Hadoop工作创建的,因此它与Hadoop基础设施进行了更深入的集成,然后是普通的javaprocesses。
对开源或极低成本解决方案提出一些建议。
答案 0 :(得分:1)
听起来Apache Airflow(https://github.com/apache/incubator-airflow)应该满足您的需求,现在它有一个Dataflow运算符(https://github.com/apache/incubator-airflow/blob/master/airflow/contrib/operators/dataflow_operator.py)。
答案 1 :(得分:0)
要编排Google数据流,我们可以使用Cloud composer,它是基于Apache Airflow构建的托管工作流程编排服务。它提供了更大的灵活性,使用它我们可以协调跨本地和公共云的大多数google服务和工作流。