AWS Batch,如何申请GPU

时间:2017-09-15 07:23:58

标签: deep-learning aws-batch

我正在记录如何使用AWS批处理培训深度学习模型。我的想法是,一旦建立了模型,我想提交几个工作来探索超参数空间。

在这个interesting blog post中,博主创建了P2实例的执行环境,并用它来训练MNIST的卷积神经网络。 我现在想知道在我的工作定义中是否可能需要特定数量的GPU而不是vCPU。通过这种方式,我确信我的工作有它需要的GPU数量。如果没有,是否有任何解决方法?

2 个答案:

答案 0 :(得分:2)

我确定你现在已经弄明白了,但不会受伤,对吗?不,截至目前,还没有办法指定GPU数量。但是,您可以将vCPU计数分配给作业定义以指定许多GPU。

例如,p2.xlarge实例有4个vCPU。因此,如果您希望您的作业分配1个GPU,则分配该作业定义4个vCPU。这样每个p2.xlarge实例只会运行一个作业。它可能在所需的vCPU空间上有点过分,但它现在是唯一的方法来指定你想要那份工作和那份工作只有GPU。

我和AWS的人谈过,他们一直都说未来很快就会出现GPU规范,但谁知道呢。

答案 1 :(得分:0)

从2019年4月开始,AWS Batch开始支持GPU分配/调度。借助此新功能,您可以指定作业所需的GPU数量。 Batch还可以为您的工作固定GPU。如果实例具有多个GPU,则Batch可以在同一实例上放置多个作业(每个作业要求1个GPU),并使它们同时运行。这是在批处理gpu支持下运行gpu作业的示例。 https://aws.amazon.com/blogs/compute/gpu-workloads-on-aws-batch/