我正在尝试在Google Cloud ML Engine上进行培训。我正在使用
提交工作gcloud ml-engine jobs submit training `whoami`_object_detection_`date +%s` \
--job-dir=gs://${YOUR_GCS_BUCKET}/train \
--packages dist/object_detection-0.1.tar.gz,slim/dist/slim-0.1.tar.gz,/tmp/pycocotools/pycocotools-2.0.tar.gz \
--module-name object_detection.model_tpu_main \
--runtime-version 1.13 \
--scale-tier BASIC_TPU \
--region us-central1 \
-- \
--model_dir=gs://${YOUR_GCS_BUCKET}/train \
--tpu_zone us-central1 \
--pipeline_config_path=gs://${YOUR_GCS_BUCKET}/data/pipeline.config
但是,在创建作业并安装了所有必需的软件包之后,我开始反复获取以下消息:
直到作业失败,并显示以下输出:
我认为问题与身份验证有关,因此我遵循了tutorial,但这没有帮助。
非常感谢您的帮助!
答案 0 :(得分:1)
似乎TPU分配存在一些问题。我通过将TPU更改为GPU来解决了该问题,因此将作业提交的命令更改为
gcloud ml-engine jobs submit training `whoami`_object_detection_`date +%s` \
--job-dir=gs://${YOUR_GCS_BUCKET}/train \
--packages dist/object_detection-0.1.tar.gz,slim/dist/slim-0.1.tar.gz,/tmp/pycocotools/pycocotools-2.0.tar.gz \
--module-name object_detection.model_main \
--runtime-version 1.13 \
--scale-tier BASIC_GPU \
--region us-central1 \
-- \
--model_dir=gs://${YOUR_GCS_BUCKET}/train \
--pipeline_config_path=gs://${YOUR_GCS_BUCKET}/data/pipeline.config
更新
我已经联系@Yash Sonthalia,因为他要我这样做。问题很快得到解决。谢谢!