我正在GCP上的一个项目中,我有一个带有4个节点(受控气流)的云作曲家。
我在它上面有大约10个带有将Spark作业发送到dataproc集群的管道的数据。
由于现在我们正走向蔚蓝,并且由于某些预算限制,我实际上是在考虑用单个VM替换云编写器,并在其上部署气流以将作业提交给Spark集群。
问题:
- 当前,没有作业在Cloud Composer群集上运行,所有作业都发送到spark群集(我只有几个在本地运行以加载配置的python脚本)。所以我认为部署气流的单个VM就足够了吗?
- 据我所知,调度不会消耗太多资源,我如何才能估计所需的VM规格?
- 在这种情况下,对于具有Airflow的VM和群集,是否有任何区别(可用性除外)?
谢谢