应用错误收集

使用GPU在GC ML上部署TF 1.0永久排队

时间：2017-02-21 16:55:29

标签： google-cloud-ml

我正在使用以下参数：

scale_tier = CUSTOM
master_type = standard_gpu
worker_count = 0
ps_count = 0
runtime_version = 1.0

日志显示消息Job <job_name> is queued.，而不打印我通常看到的下一条日志消息（Waiting for job to be provisioned.）。我的工作已经被困了30分钟，我已经尝试了两次。

我尝试在没有GPU的情况下提交相同的作业（例如，scale_tier = BASIC），然后它转移到配置阶段并最终完成。

可能会发生什么？

1 个答案:

答案 0 :(得分：3)

事实证明这个错误是因为我们用完GPU的配额。当我杀死一些使用GPU的工作时，排队的工作进入了配置阶段。

谢谢！