应用错误收集

如何在AI平台上同时运行多个GPU加速的培训作业

时间：2020-07-31 11:00:06

标签： google-cloud-platform google-cloud-ml gcp-ai-platform-training

我正在使用index[x0+y0+z0]设置在AI平台上运行张量流训练作业。我的理解是，此设置为我的工作使用单个Tesla K80 GPU。

在另一个作业已经运行时创建新作业似乎会使新创建的作业进入队列，直到正在运行的作业完成。当我检查新作业的日志时，看到以下消息：

"scaleTier": "BASIC_GPU"

这个AI Platform documentation似乎表明我的项目应该能够同时使用多达30个K80 GPU。

为什么我什至不能同时使用2个？

我需要做一些事情来将我的限制增加到预期的30吗？

2 个答案:

答案 0 :(得分：1)

看来您的项目管理员已为您可以使用的GPU数量设置了配额（请注意，错误消息说您的配额为20 cpus，1 K80和1 P100（在us-central1中）），因此工作是等待K-80上市。

两个选项：

（1）转到console.cloud.google.com/iam-admin/quotas 查找Compute Engine API和K80s 执行“编辑配额”，或在必要时要求管理员增加配额。确保同时编辑所有区域配额和us-central1配额。否则，如果管理员为每个区域提供1个GPU，请在us-west1等中运行作业。

（2）您似乎拥有P100，因此请使用自定义比例等级并指定P100。

答案 1 :(得分：1)

对于新项目，默认配额将非常低。您可以通过this form.

请求增加配额