AWS Batch故障转移策略

时间:2017-08-24 11:49:36

标签: amazon-web-services aws-lambda aws-batch

我使用AWS batch执行作业,我正在计算内容大小使用的初始内存。大约90%的时间成功,但10%的时间失败,OutOfMemory error

因此,对于此失败作业的下一次尝试,我想增加内存并再次提交作业。我不能使用AWS批处理Job Attempts,我需要一个不同的 FailOver策略

我可以使用的一种方法是让lambda每1小时检查一次作业状态,如果失败则再次使用额外的内存提交作业。

还有其他更好的方法可以为AWS Batch作业制定FailOver策略吗?

1 个答案:

答案 0 :(得分:0)

好问题;我不知道任何支持此功能的调度程序(LSF,SLURM,AWS Batch),因为恕我直言,它并不是调度程序真正应该做的-更多执行工作流的引擎(请考虑nextflow / ehive);

您可以使用AWS'containerInsights'监视容器状态-请参见

https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Container-Insights-metrics-ECS.html

希望这对您有所帮助。