我正在尝试设置Google Cloud Platform Airflow托管服务(Cloud composer),使其能够触发本地Hadoop集群而不是Google Cloud上的工作流中的任务。我找不到有关此的许多信息。 Cloud Composer文档介绍了如何在Google云中的共享VPC上触发作业,而不是在本地执行。任何帮助将不胜感激。
答案 0 :(得分:0)
假设您正在运行Spark,则可以使用Airflow中的SparkSubmitOperator
。将提交给Spark的作业(jar
或py
文件)必须连接到本地Hadoop集群的IP地址。请注意,远程运行此Spark作业将需要您正确配置防火墙(不建议),或者实际上是在共享VPC中运行。后者创建了一个私有网络,其中既包含您的集群,也包含您的Airflow设置,这使两个系统之间可以安全地通信。
答案 1 :(得分:0)
Cloud Composer使用GKE集群中的CeleryExecutor容器运行其工作程序。要在内部部署基础结构中触发任务,您将需要配置Composer环境,以使GKE群集可以从您自己的网络基础结构访问/从您自己的网络基础结构访问,除非可以从公共Internet访问该基础结构。
为此,请考虑调查Google Cloud Hybrid Connectivity。您可以使用Cloud Interconnect和Cloud VPN将内部部署基础结构与VPC建立对等关系,并可以将Composer配置为使用该VPC。