CloudML作业+详细程度==错误

时间:2017-06-15 15:59:35

标签: google-cloud-ml google-cloud-ml-engine

在步骤dataeng-machine-learning上运行9. 4. Feature Engineering codelab。

运行tarin作业的笔记本步骤是: %%bash OUTDIR=gs://${BUCKET}/taxifare/ch4/taxi_trained JOBNAME=lab4a_$(date -u +%y%m%d_%H%M%S) echo $OUTDIR $REGION $JOBNAME gsutil -m rm -rf $OUTDIR gcloud ml-engine jobs submit training $JOBNAME \ --region=$REGION \ --module-name=trainer.task \ --package-path=${REPO}/courses/machine_learning/feateng/taxifare/trainer \ --job-dir=$OUTDIR \ --staging-bucket=gs://$BUCKET \ --scale-tier=BASIC \ --runtime-version=1.0 \ -- \ --train_data_paths="gs://$BUCKET/taxifare/ch4/taxi_preproc/train*" \ --eval_data_paths="gs://${BUCKET}/taxifare/ch4/taxi_preproc/valid*" \ --output_dir=$OUTDIR \ --num_epochs=100

无论我运行多少次,这都很有效。

但是,如果我跑: %%bash OUTDIR=gs://${BUCKET}/taxifare/ch4/taxi_trained JOBNAME=lab4a_$(date -u +%y%m%d_%H%M%S) echo $OUTDIR $REGION $JOBNAME gsutil -m rm -rf $OUTDIR gcloud ml-engine jobs submit training $JOBNAME \ --region=$REGION \ --module-name=trainer.task \ --package-path=${REPO}/courses/machine_learning/feateng/taxifare/trainer \ --job-dir=$OUTDIR \ --staging-bucket=gs://$BUCKET \ --scale-tier=BASIC \ --runtime-version=1.0 \ -- \ --train_data_paths="gs://$BUCKET/taxifare/ch4/taxi_preproc/train*" \ --eval_data_paths="gs://${BUCKET}/taxifare/ch4/taxi_preproc/valid*" \ --output_dir=$OUTDIR \ --num_epochs=100 \ --verbosity DEBUG

约40秒后作业失败。在日志中有这个: The replica master 0 exited with a non-zero status of 2. Termination reason: Error.

我在这里找到了这个用法: https://cloud.google.com/ml-engine/docs/how-tos/getting-started-training-prediction#cloud-train-single

所以我猜可以使用。

我做错了什么?

2 个答案:

答案 0 :(得分:3)

请注意,“ - \”行后面的每个参数都是传递给tensorflow代码,因此依赖于单个示例代码。

在这种情况下,您运行的示例不支持“--verbosity”标志。查看samples repo,看起来只有具有该标志的样本是census estimator sample

答案 1 :(得分:0)

taxifare示例当前硬编码为INFO,代码不解析--verbose标志。