我正在尝试在gcloud上运行ML训练,但始终会收到此错误
ERROR: (gcloud.ml-engine.jobs.submit.training) RESOURCE_EXHAUSTED: Field: scale_tier Error: Insufficient accelerators are available in region US-EAST4 to schedule the job which requests 1 K80 accelerators. Please wait and try again or else try submitting your job to a different region.
- '@type': type.googleapis.com/google.rpc.BadRequest
fieldViolations:
- description: Insufficient accelerators are available in region US-EAST4 to schedule
the job which requests 1 K80 accelerators. Please wait and try again or else
try submitting your job to a different region.
field: scale_tier
等待并切换区域/区域后,结果相同。到处流量真的很高吗,还是我做错了什么?有没有可用的监视/资源工具来检查空闲插槽?
答案 0 :(得分:0)
US-EAST4没有K80加速器。下表列出了加速器及其在哪些区域可用:
https://cloud.google.com/compute/docs/gpus/
我建议尝试US-EAST1。您也可以尝试使用US-CENTRAL。
在这种情况下,我将使用我们的内部问题跟踪器来研究改善错误消息的可能性:在没有加速器的区域与有加速器的区域中请求加速器之间存在差异,但是被全部使用。