无法将作业重新提交到ml-engine,因为“具有此ID的作业已存在”

时间:2017-03-30 15:45:41

标签: tensorflow google-cloud-ml-engine

我正在尝试向gcloud ml-engine提交作业。作为参考,该作业正在使用this sample provided by Google

这是第一次,但是与此问题无关的错误,现在我正在尝试在纠正错误后重新发出命令:

gcloud ml-engine jobs submit training $JOB_NAME \
                                    --stream-logs \
                                    --runtime-version 1.0 \
                                    --job-dir $GCS_JOB_DIR \
                                    --module-name trainer.task \
                                    --package-path trainer/ \
                                    --region us-east1 \
                                    -- \
                                    --train-files $TRAIN_GCS_FILE \
                                    --eval-files $EVAL_GCS_FILE \
                                    --train-steps $TRAIN_STEPS

,其中$JOB_NAME = census。不幸的是,似乎我无法继续重新提交作业,除非我为每个新工作更改$JOB_NAME,例如census2,然后census3等。

以下是我收到的错误:

ERROR: (gcloud.ml-engine.jobs.submit.training) Project [my-project-name]
is the subject of a conflict: Field: job.job_id Error: A job with this
id already exists.

这部分设计是否无法使用相同的工作名称重新提交,或者我遗失了什么?

2 个答案:

答案 0 :(得分:1)

不确定这是否有帮助,但在Google's sample code for flowers中,通过在第22行显示的作业ID附加日期和时间来避免错误,例如,

declare -r JOB_ID="flowers_${USER}_$(date +%Y%m%d_%H%M%S)"

答案 1 :(得分:1)

就像Chunck刚才所说,只需尝试将JOB_NAME设置为: JOB_NAME="census_$(date +%Y%m%d_%H%M%S)"