google ml engine scale-tier未在远程分布式培训中运行

时间:2017-10-05 08:33:12

标签: python tensorflow machine-learning google-cloud-platform distributed

使用REMOTE分布式命令运行tensorflow时: 在指定“scale-tier STANDARD_1”之后。批处理无法运行.... 现在,我只能运行简单的SINGLE NODE“scale-tier = BASIC”

gcloud ml-engine jobs submit training census_20171005_162623
--stream-logs --scale-tier STANDARD_1 --staging-bucket gs://dextest --runtime-version 1.2 --job-
dir gs://dextest/census_20171005_162623 --module-name trainer.task --package-path trainer/ --
region us-central1 -- --train-files
gs://cloudml-public/census/data/adult.data.csv --eval-files
gs://cloudml-public/census/data/adult.test.csv --train-steps 1000
--eval-steps 100

我得到的错误是

The replica worker 1 exited with a non-zero status of 1. Termination reason: Error.

来自日志:

  

在gsutil异常命令'['gsutil',' - q','cp',
后重试    u'gs://dextest/census_20171005_161531/2211a814b974edbc3defee855046dd8e801393b7ff8154b084b081322167fe90/trainer-0.0.0.tar.gz”,   u'trainer-0.0.0.tar.gz']'返回非零退出状态1.

Master完成了SUCCESSFULLY初始化并发送了包“trainer-0.0.0.tar.gz” 但是,复制副本为运行复制包时发生问题。 似乎ML工作流程未能处理复制品中的清理.... 副本尝试清理作业目录 “GS:// dextest / census_20171005_162623” 再跑之前。

主人复制包后发生错误 副本FAILED拿起包运行。

  

I CommandException:没有匹配的网址:   GS://dextest/census_20171005_161531/2211a814b974edbc3defee855046dd8e801393b7ff8154b084b081322167fe90/trainer-0.0.0.tar.gz   E在gsutil exception命令'['gsutil',' - q','cp'之后重试,   u'gs://dextest/census_20171005_161531/2211a814b974edbc3defee855046dd8e801393b7ff8154b084b081322167fe90/trainer-0.0.0.tar.gz”,   u'trainer-0.0.0.tar.gz']'返回非零退出状态1.
  未定义

1 个答案:

答案 0 :(得分:1)

从您的错误消息(“副本工作者1退出,其非零状态为1.终止原因:错误。”)中可以看出,您有一些编程错误(语法,未定义等)。

检查return code table

Return code -------------Meaning--------------- Cloud ML Engine response

0   Successful completion   Shuts down and releases job resources.
1 - 128 Unrecoverable error Ends the job and logs the error.

找到错误并修复它,然后再试一次。

我建议您在云中提交之前在本地运行您的任务(如果您的配置支持)。如果您发现任何错误,可以在本地计算机上轻松修复。