在训练作业中使用内存高达1TB的p2.xlarge或p3.2xlarge尝试在培训工作中使用预定义的SageMaker图像分类算法时,出现以下错误:
ClientError: Out of Memory. Please use a larger instance and/or reduce the values of other parameters (e.g. batch size, number of layers etc.) if applicable
我正在使用450幅图片,我尝试将它们的尺寸从原始2000x3000px调整为244x244px尺寸,再缩小为24x24px尺寸,并不断出现相同的错误。
我尝试调整超级参数:num_classes,num_layers,num_training_samples,优化器,image_shape,检查点频率,batch_size和历元。还尝试使用预训练模型。但是,同样的错误不断发生。
答案 0 :(得分:2)
已将其添加为评论,但是我没有足够的代表。
一些澄清的问题,以便我有更多的背景信息:
您究竟如何实现1TB的RAM?
p2.xlarge
服务器具有61GB的RAM,而p3.2xlarge
服务器具有Tesla V100 GPU上的61GB内存+ 16GB。 如何将图像存储,调整大小并将其摄取到SageMaker算法中?