Question

我正在尝试在Google Cloud ML Engine上进行培训。我正在使用

提交工作

gcloud ml-engine jobs submit training `whoami`_object_detection_`date +%s` \
--job-dir=gs://${YOUR_GCS_BUCKET}/train \
--packages dist/object_detection-0.1.tar.gz,slim/dist/slim-0.1.tar.gz,/tmp/pycocotools/pycocotools-2.0.tar.gz \
--module-name object_detection.model_tpu_main \
--runtime-version 1.13 \
--scale-tier BASIC_TPU \
--region us-central1 \
-- \
--model_dir=gs://${YOUR_GCS_BUCKET}/train \
--tpu_zone us-central1 \
--pipeline_config_path=gs://${YOUR_GCS_BUCKET}/data/pipeline.config

但是，在创建作业并安装了所有必需的软件包之后，我开始反复获取以下消息：

直到作业失败，并显示以下输出：

我已经尝试过this，this和this，但没有成功。

我认为问题与身份验证有关，因此我遵循了tutorial，但这没有帮助。

非常感谢您的帮助！

Answer 1

似乎TPU分配存在一些问题。我通过将TPU更改为GPU来解决了该问题，因此将作业提交的命令更改为

gcloud ml-engine jobs submit training `whoami`_object_detection_`date +%s` \
--job-dir=gs://${YOUR_GCS_BUCKET}/train \
--packages dist/object_detection-0.1.tar.gz,slim/dist/slim-0.1.tar.gz,/tmp/pycocotools/pycocotools-2.0.tar.gz \
--module-name object_detection.model_main \
--runtime-version 1.13 \
--scale-tier BASIC_GPU \
--region us-central1 \
-- \
--model_dir=gs://${YOUR_GCS_BUCKET}/train \
--pipeline_config_path=gs://${YOUR_GCS_BUCKET}/data/pipeline.config

更新

我已经联系@Yash Sonthalia，因为他要我这样做。问题很快得到解决。谢谢！

Google Cloud ML：重复“尝试刷新以获得初始access_token”，然后“作业失败”

1 个答案: