我想每天在Spark EMR上自动运行一份工作,但我需要优化我的预算并仅在需要时使用EMR。
那么,有没有办法为一个作业运行EMR(AWS),然后在作业完成后(每个X天)终止所有实例。
答案 0 :(得分:2)
您可以将群集作为瞬态进程运行:启动群集 集群,加载输入数据,处理数据,存储输出 结果,然后自动关闭。这是标准型号 对于执行定期处理任务的集群。关机 群集会自动确保您只需支付费用 处理数据所需的时间。
在高级选项下,选择 完成最后一步后自动终止群集 。
答案 1 :(得分:1)
我刚刚发现数据管道服务,我发现这项服务允许安排和运行火花作业。 我认为这是此用例的最佳解决方案。 https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-manage-recurring.html