对象检测训练作业在GCP上失败

时间:2019-10-24 15:08:19

标签: google-cloud-platform object-detection

我正在使用自己的数据集在GCP上进行训练,以进行对象检测。我的培训工作脚本是这样的:

JOB_NAME=object_detection"_$(date +%m_%d_%Y_%H_%M_%S)"
echo $JOB_NAME
gcloud ml-engine jobs submit training $JOB_NAME \
        --job-dir=gs://$1 \
        --scale-tier BASIC_GPU \
        --runtime-version 1.12 \
        --packages $PWD/models/research/dist/object_detection-0.1.tar.gz,$PWD/models/research/slim/dist/slim-0.1.tar.gz,/tmp/pycocotools/pycocotools-2.0.tar.gz \
        --module-name $PWD/models/research/object_detection.model_main \
        --region europe-west1 \
        -- \
        --model_dir=gs://$1 \
        --pipeline_config_path=gs://$1/data/fast_rcnn_resnet101_coco.config

它在以下行失败:

python -m $PWD/models/research/object_detection.model_main --model_dir=gs://my-hand-detector --pipeline_config_path=gs://my-hand-detector/data/fast_rcnn_resnet101_coco.config --job-dir gs://my-hand-detector/
/usr/bin/python: Import by filename is not supported.

基于日志,这是我所了解的错误来源。在这方面的任何帮助将是有帮助的。谢谢。

1 个答案:

答案 0 :(得分:0)

我假设您正在使用来自Tensorflow GitHub repository的model_main.py文件。使用它,我已经能够复制您的错误消息。故障排除后,我成功提交了培训工作,可以正确地训练模型。

为了解决您的问题,建议您遵循this tutorial,并特别考虑以下步骤:

  • 确保具有tensorflow的更新版本(1.14不包括所有必需的功能)
  • 根据输入数据正确生成TFRecords并将其上传到GCS存储桶
  • 配置对象检测管道(设置数据和标签映射的正确路径)

就我而言,我已使用PASCAL VOC输入数据重现了工作流程(请参见this)。