我的培训工作失败,错误说: NotFoundError:不成功的TensorSliceReader构造函数:无法找到gs的任何匹配文件://my_file_name/train/model.ckpt-2- ????? -of-00001 [[Node:save / RestoreV2_29 = RestoreV2 [dtypes = [DT_FLOAT] ],_ device =“/ job:localhost / replica:0 / task:0 / cpu:0”](_ recv_save / Const_0,save / RestoreV2_29 / tensor_names,save / RestoreV2_29 / shape_and_slices)]]由op u'save / RestoreV2_29引起',定义于......
我检查了Google云端存储,该文件(gs://my_file_name/train/model.ckpt-2*)确实存在。为什么找不到它?
答案 0 :(得分:0)
尝试切换到单个区域Google云端存储分区。
Tensorflow恢复功能正在尝试列出刚刚编写的Google云端存储分区中的文件。但是,如果您要写入多区域存储区,则在列出文件时,Google云存储的强度不一致。在这种情况下,单区域桶非常一致,并且不会出现此问题。假设单个区域与您训练的区域相同,它们也会提供更高的性能。
另见:
https://cloud.google.com/ml/docs/how-tos/getting-set-up#setting_up_your_cloud_storage_bucket https://cloud.google.com/ml/docs/concepts/environment-overview#cloud_storage_buckets