卡在Google Cloud中训练宠物模型

时间:2018-10-15 09:11:04

标签: python machine-learning google-cloud-platform deep-learning google-cloud-storage

我一直在关注this教程。

用于Google Cloud中的训练Pets数据集。我已经完成了所有步骤,并且训练命令如下所示:-

gcloud ml-engine jobs submit training `whoami`_object_detection_pets_`date +%m_%d_%Y_%H_%M_%S` \
    --runtime-version 1.8 \
    --job-dir=gs://${datastoremd1}/model_dir \
    --packages dist/object_detection-0.1.tar.gz,slim/dist/slim-0.1.tar.gz,/tmp/pycocotools/pycocotools-2.0.tar.gz \
    --module-name object_detection.model_main \
    --region us-central1 \
    --config object_detection/samples/cloud/cloud.yml \
    -- \
--model_dir=gs://${datastoremd1}/model_dir \
--pipeline_config_path=gs://${datastoremd1}/data/faster_rcnn_resnet101_pets.config 

datastoremd1是我的存储桶名称。

出现以下错误:-

  

副本ps 0以非零状态1退出。终止   原因:错误。副本ps 1以非零状态1退出。   终止原因:错误

我搜索了各种资源并找到了一个解决方案,该人员说,我们必须在yaml文件中进行更改,因此我将runtimeVersion更改为1.4(如该解决方案所述)。

还对setup.py文件进行了一些更改。 第一步,有人说要在object_detection / evaluator.py文件中进行更改。 但是那里没有evaluator.py文件。

我关注的solution

该问题的解决方案是什么?

0 个答案:

没有答案