Question

我们正在运行两个（1）类型 ml.p3.8xlarge 和（2） ml.p3.2xlarge 的TrainingJob实例。

每个培训工作都在运行带有Tensorflow和Keras后端的自定义算法。

实例（1）运行正常，而实例（2）在报告了1个小时的培训时间后，在CloudWatch中进行了任何日志记录（任何文本拖曳日志），均退出，并显示以下错误：

Failure reason
CapacityError: Unable to provision requested ML compute capacity. Please retry using a different ML instance type.

我不确定此消息是什么意思。

Answer 1

此消息表示SageMaker尝试启动实例，但是EC2实例的容量不足，因此在等待了一段时间（在这种情况下为1小时）之后，SageMaker放弃了培训工作，但失败了。

有关ec2中容量问题的更多信息，请访问： troubleshooting-launch-capacity

要解决此问题，您可以尝试以失败原因建议运行具有不同实例类型的作业，也可以等待几分钟，然后根据EC2的建议再次提交请求。