将检查点写入S3:InternalError:EntityTooLarge

时间:2018-06-20 20:57:04

标签: tensorflow amazon-s3

我正在使用S3作为共享文件系统,在分布式设置中运行此criteo线性分类器示例:https://github.com/GoogleCloudPlatform/cloudml-samples/tree/master/criteo_tft

检查点已写入S3,但显然在某些时候它们太大了,无法上传:

tensorflow.python.framework.errors_impl.InternalError:EntityTooLarge:无法解析ExceptionName:EntityTooLarge消息:您建议的上传超出了允许的最大大小

PutObject请求的对象大小限制为5GB。 (显然,TensorFlow中的S3 FileSystem不使用分段上传:https://github.com/tensorflow/tensorflow/blob/master/tensorflow/core/platform/s3/s3_file_system.cc#L249。)

我有两个问题:

  1. 除模型大小外,检查点大小还涉及哪些因素?在GCP上运行时,我发现检查点在某个时刻停止增长,并且从未超过1GB。
  2. 有没有办法限制检查点的大小?

谢谢!

0 个答案:

没有答案