使用Airflow dag运行EMR集群,一旦完成任务,EMR将终止

时间:2019-03-18 18:15:06

标签: apache-spark hadoop airflow amazon-emr

我有Airflow作业,这些作业在EMR群集上运行良好。我需要的是,如果我有4个气流作业,而这需要一个EMR集群,比如说20分钟才能完成任务。为什么不可以在DAG运行时创建EMR集群,而一旦作业完成,它将终止创建的EMR集群。

3 个答案:

答案 0 :(得分:1)

检查我的实现,DAG将创建emr集群并针对s3中的数据运行spark作业,并在完成后自动终止。

https://beyondexperiment.com/vijayravichandran06/aws-emr-orchestrate-with-airflow/

答案 1 :(得分:0)

执行此操作的最佳方法可能是在Airflow DAG的根部有一个节点,该节点创建EMR群集,然后在DAG的末尾有另一个节点,该节点在所有其他节点之后将群集降速已经完成。

答案 2 :(得分:0)

当然,那将是最有效地利用资源。让我警告您:这里有很多细节;我会尝试列出尽可能多的清单。我鼓励您添加自己的综合答案,列出遇到的任何问题和解决方法(一旦您完成此操作)


关于群集的创建/终止


关于工作提交