启动EMR并在运行一个JOB后自动将其杀死(自动)

时间:2018-01-23 08:37:16

标签: amazon-web-services amazon-ec2 emr

我想每天在Spark EMR上自动运行一份工作,但我需要优化我的预算并仅在需要时使用EMR。

那么,有没有办法为一个作业运行EMR(AWS),然后在作业完成后(每个X天)终止所有实例。

2 个答案:

答案 0 :(得分:2)

  

您可以将群集作为瞬态进程运行:启动群集   集群,加载输入数据,处理数据,存储输出   结果,然后自动关闭。这是标准型号   对于执行定期处理任务的集群。关机   群集会自动确保您只需支付费用   处理数据所需的时间。

在高级选项下,选择 完成最后一步后自动终止群集

Configure a Cluster to be Transient or Long-Running

答案 1 :(得分:1)

我刚刚发现数据管道服务,我发现这项服务允许安排和运行火花作业。 我认为这是此用例的最佳解决方案。 https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-manage-recurring.html