春季云数据流和气流

时间:2020-04-19 23:03:56

标签: airflow spring-cloud-dataflow

我们使用气流作为工作流管理工具来安排/监视任务,还有一些应用程序使用Spring云数据流通过生产者和消费者对话消息总线Kafka和用于UI(ETL)的Grafana仪表板来跨进程进行松散耦合。 Kubernetes和AWS(EKS)是部署的选项。

我们开始创建数据管道,这些数据管道将具有源(S3上的文件或服务器或数据库),处理器(自定义应用程序,AL / ML管道)和目的地(Kafka,s3,数据库,ES)。我计划使用气流通过基于SCDF的应用程序或将来随着AL / ML扩展而以python编写的应用程序来管理管道和管道内任务的整体管理。这是正确的方法还是我可以放任自流?

1 个答案:

答案 0 :(得分:0)

根据您的要求,SCDF将适合并提供用于管理流数据管道的选项。 尽管您仍可以进行研究以找到其他可行的方法,但我可以提供一些其他提示,说明SCDF可以满足您的某些要求。

  • SCDF提供了可扩展/自定义的开箱即用应用程序。这些应用程序包括S3源和接收器,您可以直接使用它们。有关开箱即用应用程序的完整列表,请参见页面here
  • 显然,SCDF具有Kubernetes部署程序,您可以在任何基于Kubernetes的平台上工作。部署应用程序时,可以将K8s的特定属性配置为一组kubernetes部署程序属性。
  • 您可以在流数据管道中嵌入基于python的应用程序作为处理器/变压器。您可以从SCDF站点检查此receipe,以了解有关此内容的更多信息。
  • 您还可以将tensorflow应用程序作为processor应用程序嵌入管道中。