应用错误收集

AWS Batch，如何申请GPU

时间：2017-09-15 07:23:58

标签： deep-learning aws-batch

我正在记录如何使用AWS批处理培训深度学习模型。我的想法是，一旦建立了模型，我想提交几个工作来探索超参数空间。

在这个interesting blog post中，博主创建了P2实例的执行环境，并用它来训练MNIST的卷积神经网络。我现在想知道在我的工作定义中是否可能需要特定数量的GPU而不是vCPU。通过这种方式，我确信我的工作有它需要的GPU数量。如果没有，是否有任何解决方法？

2 个答案:

答案 0 :(得分：2)

我确定你现在已经弄明白了，但不会受伤，对吗？不，截至目前，还没有办法指定GPU数量。但是，您可以将vCPU计数分配给作业定义以指定许多GPU。

例如，p2.xlarge实例有4个vCPU。因此，如果您希望您的作业分配1个GPU，则分配该作业定义4个vCPU。这样每个p2.xlarge实例只会运行一个作业。它可能在所需的vCPU空间上有点过分，但它现在是唯一的方法来指定你想要那份工作和那份工作只有GPU。

我和AWS的人谈过，他们一直都说未来很快就会出现GPU规范，但谁知道呢。

答案 1 :(得分：0)

从2019年4月开始，AWS Batch开始支持GPU分配/调度。借助此新功能，您可以指定作业所需的GPU数量。 Batch还可以为您的工作固定GPU。如果实例具有多个GPU，则Batch可以在同一实例上放置多个作业（每个作业要求1个GPU），并使它们同时运行。这是在批处理gpu支持下运行gpu作业的示例。 https://aws.amazon.com/blogs/compute/gpu-workloads-on-aws-batch/