我们正在运行两个(1)类型 ml.p3.8xlarge 和(2) ml.p3.2xlarge 的TrainingJob实例。
每个培训工作都在运行带有Tensorflow和Keras后端的自定义算法。
实例(1)运行正常,而实例(2)在报告了1个小时的培训时间后,在CloudWatch中进行了任何日志记录(任何文本拖曳日志),均退出,并显示以下错误:
Failure reason
CapacityError: Unable to provision requested ML compute capacity. Please retry using a different ML instance type.
我不确定此消息是什么意思。
答案 0 :(得分:1)
此消息表示SageMaker尝试启动实例,但是EC2实例的容量不足,因此在等待了一段时间(在这种情况下为1小时)之后,SageMaker放弃了培训工作,但失败了。
有关ec2中容量问题的更多信息,请访问: troubleshooting-launch-capacity
要解决此问题,您可以尝试以失败原因建议运行具有不同实例类型的作业,也可以等待几分钟,然后根据EC2的建议再次提交请求。