AWS SageMaker:CapacityError:无法设置请求的ML计算能力。

时间:2018-12-05 16:23:42

标签: tensorflow keras amazon-sagemaker

我们正在运行两个(1)类型 ml.p3.8xlarge 和(2) ml.p3.2xlarge 的TrainingJob实例。

每个培训工作都在运行带有Tensorflow和Keras后端的自定义算法。

实例(1)运行正常,而实例(2)在报告了1个小时的培训时间后,在CloudWatch中进行了任何日志记录(任何文本拖曳日志),均退出,并显示以下错误:

Failure reason
CapacityError: Unable to provision requested ML compute capacity. Please retry using a different ML instance type.

我不确定此消息是什么意思。

1 个答案:

答案 0 :(得分:1)

此消息表示SageMaker尝试启动实例,但是EC2实例的容量不足,因此在等待了一段时间(在这种情况下为1小时)之后,SageMaker放弃了培训工作,但失败了。

有关ec2中容量问题的更多信息,请访问: troubleshooting-launch-capacity

要解决此问题,您可以尝试以失败原因建议运行具有不同实例类型的作业,也可以等待几分钟,然后根据EC2的建议再次提交请求。