应用错误收集

AWS BATCH-如何运行更多并发作业

时间：2020-07-30 15:09:20

标签： amazon-web-services batch-processing aws-batch

我刚刚开始使用AWS BATCH进行深度学习工作。我已经使用以下配置创建了计算环境：

最小vCPU：0
最大vCPU：16个
实例类型：g4dn家族，g3s家族，g3家族，p3家族
分配策略：BEST_FIT_PROGRESSIVE

我的帐户的最大vCPU限制数为16，每个作业都需要16GB的内存。我观察到在任何时间点最多可以同时运行2个作业。我以前使用过allocation strategy: BEST_FIT，并将其更改为allocation strategy: BEST_FIT_PROGRESSIVE，但我仍然看到只能同时运行2个作业。这限制了我在给定时间内可以做的实验数量。我该怎么做才能增加可以同时运行的作业数量？

1 个答案:

答案 0 :(得分：0)

我刚才想通了。我在这里发布答案，以防万一有人觉得将来有用。事实证明，分配给我每个作业的实例均为g4dn2xlarge。这些实例每个都占用8个vCPU。由于我的vCPU限制为16，因此只能同时运行2个作业。解决方案之一是要求AWS通过创建新的支持案例来增加vCPU的限制。另一个解决方案可能是修改计算环境，以使用消耗4个vCPU的GPU实例（在AWS上可能是最低的），在这种情况下，最多可以同时运行4个作业。