在Sage Maker中使用图像分类时出现内存不足错误

时间:2019-01-31 16:27:28

标签: amazon-web-services artificial-intelligence amazon-sagemaker

在训练作业中使用内存高达1TB的p2.xlarge或p3.2xlarge尝试在培训工作中使用预定义的SageMaker图像分类算法时,出现以下错误:

ClientError: Out of Memory. Please use a larger instance and/or reduce the values of other parameters (e.g. batch size, number of layers etc.) if applicable

我正在使用450幅图片,我尝试将它们的尺寸从原始2000x3000px调整为244x244px尺寸,再缩小为24x24px尺寸,并不断出现相同的错误。

我尝试调整超级参数:num_classes,num_layers,num_training_samples,优化器,image_shape,检查点频率,batch_size和历元。还尝试使用预训练模型。但是,同样的错误不断发生。

1 个答案:

答案 0 :(得分:2)

已将其添加为评论,但是我没有足够的代表。

一些澄清的问题,以便我有更多的背景信息:

您究竟如何实现1TB的RAM?

  1. p2.xlarge服务器具有61GB的RAM,而p3.2xlarge服务器具有Tesla V100 GPU上的61GB内存+ 16GB。

如何将图像存储,调整大小并将其摄取到SageMaker算法中?

  1. 考虑将图像缩小至24x24时仍会发生内存错误,因此怀疑该错误。如果您将原始图像(450张分辨率为2000x3000的图像)调整为内存中对象的大小,并且没有就地执行转换(即:未创建新图像),则可能会预先分配大量内存,导致SageMaker训练算法抛出OOM错误。