我正在使用S3作为共享文件系统,在分布式设置中运行此criteo线性分类器示例:https://github.com/GoogleCloudPlatform/cloudml-samples/tree/master/criteo_tft
检查点已写入S3,但显然在某些时候它们太大了,无法上传:
tensorflow.python.framework.errors_impl.InternalError:EntityTooLarge:无法解析ExceptionName:EntityTooLarge消息:您建议的上传超出了允许的最大大小
PutObject请求的对象大小限制为5GB。 (显然,TensorFlow中的S3 FileSystem不使用分段上传:https://github.com/tensorflow/tensorflow/blob/master/tensorflow/core/platform/s3/s3_file_system.cc#L249。)
我有两个问题:
谢谢!