Google云端作业提交培训陷入困境

时间:2018-06-11 10:16:40

标签: machine-learning neural-network google-cloud-platform google-cloud-ml

你好,虽然我已经设置谷歌云机器学习训练神经网络,突然间我无法向谷歌云提交工作。

没有错误,但命令挂起而没有做任何事情,我的实例也正在运行。这是命令:

gcloud ml-engine jobs submit training job9123 --runtime-version 1.0 --job-dir gs://dataset1_giorgaros2 --package-path trainmodule  --module-name trainmodule.nncloud --region europe-west1 --config cloudml-gpu.yaml -- --train-file gs://dataset1_giorgaros2/nnn.p

谢谢!

2 个答案:

答案 0 :(得分:1)

ML引擎作业日志可以帮助获取有关失败的作业执行的更多详细信息,在大多数情况下,日志文件包含失败原因。

Finding the job logs on ML engine

如果您每次在执行训练作业时都尝试使用相同的命令,则可能会得到与作业名称有关的错误,这是因为名称对于ML引擎上的每个作业必须是唯一的,如上所述。 ML引擎作业的命名约定规则。

ML Engine name convention

答案 1 :(得分:0)

尝试检查网络连接到谷歌计算引擎。

检查运行中的日志 - https://console.cloud.google.com/

当然,阅读文档: https://cloud.google.com/sdk/gcloud/reference/ml-engine/jobs/submit/training