Question

在尝试使用Sagemaker进行图像分类时出现这样的错误：

ClientError: An error occurred (ValidationException) when calling the CreateTrainingJob operation: 1 validation error detected: Value 'ml.t2.medium' at 'resourceConfig.instanceType' failed to satisfy constraint: Member must satisfy enum value set: [ml.p2.xlarge, ml.m5.4xlarge, ml.m4.16xlarge, ml.p3.16xlarge, ml.m5.large, ml.p2.16xlarge, ml.c4.2xlarge, ml.c5.2xlarge, ml.c4.4xlarge, ml.c5.4xlarge, ml.c4.8xlarge, ml.c5.9xlarge, ml.c5.xlarge, ml.c4.xlarge, ml.c5.18xlarge, ml.p3.2xlarge, ml.m5.xlarge, ml.m4.10xlarge, ml.m5.12xlarge, ml.m4.xlarge, ml.m5.24xlarge, ml.m4.2xlarge, ml.p2.8xlarge, ml.m5.2xlarge, ml.p3.8xlarge, ml.m4.4xlarge]

Answer 1

截至本文撰写之时，@ExceptionHandler(DataAccessException.class) public ModelAndView handleError(HttpServletRequest req, final HttpServletResponse response, DataAccessException ex) { logger.error("Request: " + req.getRequestURL() + " raised " + ex); response.sendRedirect("/sample"); return null; }实例类型在SageMaker Training上不可用。

您可以参考https://aws.amazon.com/sagemaker/pricing/来查看所使用的组件和区域中受支持的实例类型。

还应该检查正在运行的算法是否还有其他硬件限制。例如，Image Classification Algorithm文档指出它需要GPU实例进行训练：

对于图像分类，我们支持以下GPU实例进行训练：ml.p2.xlarge，ml.p2.8xlarge，ml.p2.16xlarge，ml.p3.2xlarge，ml.p3.8xlarge和ml.p3。 16xlarge。我们建议使用具有更多内存的GPU实例进行大批量训练。但是，CPU（例如C4）和GPU（例如P2和P3）实例都可以用于推理。您还可以在多GPU和多计算机设置上运行该算法，以进行分布式训练。

图像分类算法支持P2和P3实例。

图像分类转移学习Sagemaker问题

1 个答案: