从Cloud Composer触发本地的hadoop集群任务

时间:2019-02-05 17:23:46

标签: google-cloud-platform airflow google-cloud-composer

我正在尝试设置Google Cloud Platform Airflow托管服务(Cloud composer),使其能够触发本地Hadoop集群而不是Google Cloud上的工作流中的任务。我找不到有关此的许多信息。 Cloud Composer文档介绍了如何在Google云中的共享VPC上触发作业,而不是在本地执行。任何帮助将不胜感激。

2 个答案:

答案 0 :(得分:0)

假设您正在运行Spark,则可以使用Airflow中的SparkSubmitOperator。将提交给Spark的作业(jarpy文件)必须连接到本地Hadoop集群的IP地址。请注意,远程运行此Spark作业将需要您正确配置防火墙(不建议),或者实际上是在共享VPC中运行。后者创建了一个私有网络,其中既包含您的集群,也包含您的Airflow设置,这使两个系统之间可以安全地通信。

答案 1 :(得分:0)

Cloud Composer使用GKE集群中的CeleryExecutor容器运行其工作程序。要在内部部署基础结构中触发任务,您将需要配置Composer环境,以使GKE群集可以从您自己的网络基础结构访问/从您自己的网络基础结构访问,除非可以从公共Internet访问该基础结构。

为此,请考虑调查Google Cloud Hybrid Connectivity。您可以使用Cloud Interconnect和Cloud VPN将内部部署基础结构与VPC建立对等关系,并可以将Composer配置为使用该VPC。