在单个VM上部署气流以运行Spark作业提交Spark作业

时间:2019-12-11 15:36:23

标签: apache-spark google-cloud-platform airflow google-cloud-composer

我正在GCP上的一个项目中,我有一个带有4个节点(受控气流)的云作曲家。 我在它上面有大约10个带有将Spark作业发送到dataproc集群的管道的数据。

由于现在我们正走向蔚蓝,并且由于某些预算限制,我实际上是在考虑用单个VM替换云编写器,并在其上部署气流以将作业提交给Spark集群。

问题:

  • 当前,没有作业在Cloud Composer群集上运行,所有作业都发送到spark群集(我只有几个在本地运行以加载配置的python脚本)。所以我认为部署气流的单个VM就足够了吗?
  • 据我所知,调度不会消耗太多资源,我如何才能估计所需的VM规格?
  • 在这种情况下,对于具有Airflow的VM和群集,是否有任何区别(可用性除外)?

谢谢

0 个答案:

没有答案