成功培训后,AWS Sagemaker失败“ ClientError:工件上传失败:磁盘空间不足”

时间:2020-05-06 09:23:14

标签: amazon-sagemaker

我正在使用自定义docker映像训练网络。第一次训练每步50.000步是可以的,当我尝试将步数增加到80.000时,出现错误:“ ClientError:工件上传失败:磁盘空间不足”,我只是增加了步数..这对我来说很奇怪。 cloudwatch日志中没有错误,我的最后一个输入是:

成功生成的图形:['pipeline.config','tflite_graph.pb', 'frozen_inference_graph.pb','tflite_graph.pbtxt', 'tflite_quant_graph.tflite','saved_model','hyperparameters.json', 'label_map.pbtxt','model.ckpt.data-00000-of-00001', 'model.ckpt.meta','model.ckpt.index','checkpoint']

基本上,这意味着创建这些文件是因为很简单:

    graph_files = os.listdir(model_path + '/graph')

正在谈论哪个磁盘空间?从磁盘利用率图表中还可以看到训练工作,上升曲线的峰值达到80%... 我希望在成功创建上述文件之后,所有内容都上传到我的s3存储桶,其中没有磁盘空间问题。为什么50.000个步骤有效而80.000个步骤无效? 据我了解,训练步骤的数量不会影响模型文件的大小。

1 个答案:

答案 0 :(得分:0)

将卷大小添加到训练作业中,在创建时选择“每个实例的额外存储卷(gb)”到5GB似乎可以解决此问题。我仍然不明白为什么,但是问题似乎已经解决。