Google Cloud ML:重复“尝试刷新以获得初始access_token”,然后“作业失败”

时间:2019-07-02 13:59:38

标签: gcloud google-cloud-ml gsutil

我正在尝试在Google Cloud ML Engine上进行培训。我正在使用

提交工作
gcloud ml-engine jobs submit training `whoami`_object_detection_`date +%s` \
--job-dir=gs://${YOUR_GCS_BUCKET}/train \
--packages dist/object_detection-0.1.tar.gz,slim/dist/slim-0.1.tar.gz,/tmp/pycocotools/pycocotools-2.0.tar.gz \
--module-name object_detection.model_tpu_main \
--runtime-version 1.13 \
--scale-tier BASIC_TPU \
--region us-central1 \
-- \
--model_dir=gs://${YOUR_GCS_BUCKET}/train \
--tpu_zone us-central1 \
--pipeline_config_path=gs://${YOUR_GCS_BUCKET}/data/pipeline.config

但是,在创建作业并安装了所有必需的软件包之后,我开始反复获取以下消息:

enter image description here

直到作业失败,并显示以下输出:

enter image description here

我已经尝试过thisthisthis,但没有成功。

我认为问题与身份验证有关,因此我遵循了tutorial,但这没有帮助。

非常感谢您的帮助!

1 个答案:

答案 0 :(得分:1)

似乎TPU分配存在一些问题。我通过将TPU更改为GPU来解决了该问题,因此将作业提交的命令更改为

gcloud ml-engine jobs submit training `whoami`_object_detection_`date +%s` \
--job-dir=gs://${YOUR_GCS_BUCKET}/train \
--packages dist/object_detection-0.1.tar.gz,slim/dist/slim-0.1.tar.gz,/tmp/pycocotools/pycocotools-2.0.tar.gz \
--module-name object_detection.model_main \
--runtime-version 1.13 \
--scale-tier BASIC_GPU \
--region us-central1 \
-- \
--model_dir=gs://${YOUR_GCS_BUCKET}/train \
--pipeline_config_path=gs://${YOUR_GCS_BUCKET}/data/pipeline.config

更新

我已经联系@Yash Sonthalia,因为他要我这样做。问题很快得到解决。谢谢!