应用错误收集

时间：2017-08-24 11:49:36

标签： amazon-web-services aws-lambda aws-batch

我使用AWS batch执行作业，我正在计算内容大小使用的初始内存。大约90％的时间成功，但10％的时间失败，OutOfMemory error。

因此，对于此失败作业的下一次尝试，我想增加内存并再次提交作业。我不能使用AWS批处理Job Attempts，我需要一个不同的 FailOver策略。

我可以使用的一种方法是让lambda每1小时检查一次作业状态，如果失败则再次使用额外的内存提交作业。

还有其他更好的方法可以为AWS Batch作业制定FailOver策略吗？

答案 0 :(得分：0)

好问题；我不知道任何支持此功能的调度程序（LSF，SLURM，AWS Batch），因为恕我直言，它并不是调度程序真正应该做的-更多执行工作流的引擎（请考虑nextflow / ehive）；

您可以使用AWS'containerInsights'监视容器状态-请参见

希望这对您有所帮助。