提交ml-engine培训作业时云存储上传失败

时间:2019-02-19 16:11:57

标签: tensorflow machine-learning gcloud google-cloud-ml

我按照此处的说明进行操作:https://github.com/tensorflow/models/blob/master/research/object_detection/g3doc/running_on_cloud.md

我已经为我的项目创建了一个存储桶,并将以下文件上传到gs://<BUCKET>/data

  • faster_rcnn_resnet101_pets.config
  • model.ckpt.data-00000-of-00001
  • model.ckpt.index
  • model.ckpt.meta
  • pet_faces_train.record-*
  • pet_faces_val.record- *
  • pet_label_map.pbtxt

运行时

gcloud ml-engine jobs submit training `whoami`_object_detection_pets_`date +%m_%d_%Y_%H_%M_%S` \
    --runtime-version 1.9 \
    --job-dir=gs://<BUCKET>/model_dir \
    --packages dist/object_detection-0.1.tar.gz,slim/dist/slim-0.1.tar.gz,/tmp/pycocotools/pycocotools-2.0.tar.gz \
    --module-name object_detection.model_main \
    --region us-central1 \
    --config object_detection/samples/cloud/cloud.yml \
    -- \
    --model_dir=gs://<BUCKET>/model_dir \
    --pipeline_config_path=gs://<BUCKET>/data/faster_rcnn_resnet101_pets.config

我收到此错误:

ERROR: (gcloud.ml-engine.jobs.submit.training) Cloud storage upload failure. Uploaded file does not match local file: dist/object_detection-0.1.tar.gz. Please retry.

我重新运行了gcloud auth登录,实际上确实看到object_detection-0.1.tar.gz中有一个gs://<BUCKET>/model_dir/packages/7a24fbdd5ab652ab5a0737xxxxxx/文件

我被困在这里,非常感谢您的帮助。

谢谢!

1 个答案:

答案 0 :(得分:0)

我分享了你的痛苦:)

我要做的是在我的存储桶中创建一个名为dist的文件夹,然后将所有tar.gz文件上传到该文件夹​​中,并从存储桶而不是本地驱动器中使用它们。

我的存储桶称为:tensorflow-oxford-pets。 现在,gs:// tensorflow-oxford-pets / dist的内容为:

  • object_detection-0.1.tar.gz
  • slim-0.1.tar.gz
  • pycocotools-2.0.tar.gz

然后,而不是本地路径。

  • -打包dist / object_detection-0.1.tar.gz,slim / dist / slim-0.1.tar.gz,/ tmp / pycocotools / pycocotools-2.0.tar.gz \

我使用了存储桶路径:

  • -打包gs://tensorflow-oxford-pets/dist/object_detection-0.1.tar.gz,gs://tensorflow-oxford-pets/dist/slim-0.1.tar.gz,gs:// tensorflow-oxford-pets / dist / pycocotools-2.0.tar.gz \