我正在寻找用于流式GCP Dataflow工作的编排软件 - 可以提供警报,状态,工作启动等等,类似于this对Kubernetes所做的事情。答案here表明Airflow与GCP有一些联系 - 这很好,因为我们有一些在Airflow上运行的其他基础设施。但是我不确定这是否能够处理流媒体作业 - 我的理解是Airflow是为完成任务而设计的,而不是流媒体工作的情况。 Airflow适合这个吗?或者我应该使用不同的软件吗?
答案 0 :(得分:3)
可能已经晚了,但可以回答将来访问此主题的人。
是的,您绝对可以通过气流运行数据流流作业。使用气流版本1.9或更高版本。
链接: https://github.com/apache/incubator-airflow/blob/master/airflow/contrib/hooks/gcp_dataflow_hook.py
您不需要为运行流作业而付出额外的努力。以上,Dataflow运算符同时运行批处理作业和流作业。它会在数据流流作业开始运行(即作业处于运行状态)后立即将气流任务标记为成功