我使用AWS batch
执行作业,我正在计算内容大小使用的初始内存。大约90%的时间成功,但10%的时间失败,OutOfMemory error
。
因此,对于此失败作业的下一次尝试,我想增加内存并再次提交作业。我不能使用AWS批处理Job Attempts
,我需要一个不同的 FailOver策略。
我可以使用的一种方法是让lambda每1小时检查一次作业状态,如果失败则再次使用额外的内存提交作业。
还有其他更好的方法可以为AWS Batch作业制定FailOver策略吗?
答案 0 :(得分:0)
好问题;我不知道任何支持此功能的调度程序(LSF,SLURM,AWS Batch),因为恕我直言,它并不是调度程序真正应该做的-更多执行工作流的引擎(请考虑nextflow / ehive);
您可以使用AWS'containerInsights'监视容器状态-请参见
https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Container-Insights-metrics-ECS.html
希望这对您有所帮助。