使用GPU在GC ML上部署TF 1.0永久排队

时间:2017-02-21 16:55:29

标签: google-cloud-ml

我正在使用以下参数:

  • scale_tier = CUSTOM
  • master_type = standard_gpu
  • worker_count = 0
  • ps_count = 0
  • runtime_version = 1.0

日志显示消息Job <job_name> is queued.,而不打印我通常看到的下一条日志消息(Waiting for job to be provisioned.)。我的工作已经被困了30分钟,我已经尝试了两次。

我尝试在没有GPU的情况下提交相同的作业(例如,scale_tier = BASIC),然后它转移到配置阶段并最终完成。

可能会发生什么?

1 个答案:

答案 0 :(得分:3)

事实证明这个错误是因为我们用完GPU的配额。当我杀死一些使用GPU的工作时,排队的工作进入了配置阶段。

谢谢!