AWS BATCH-如何运行更多并发作业

时间:2020-07-30 15:09:20

标签: amazon-web-services batch-processing aws-batch

我刚刚开始使用AWS BATCH进行深度学习工作。我已经使用以下配置创建了计算环境:

  • 最小vCPU:0
  • 最大vCPU:16个
  • 实例类型:g4dn家族,g3s家族,g3家族,p3家族
  • 分配策略:BEST_FIT_PROGRESSIVE

我的帐户的最大vCPU限制数为16,每个作业都需要16GB的内存。我观察到在任何时间点最多可以同时运行2个作业。我以前使用过allocation strategy: BEST_FIT,并将其更改为allocation strategy: BEST_FIT_PROGRESSIVE,但我仍然看到只能同时运行2个作业。这限制了我在给定时间内可以做的实验数量。我该怎么做才能增加可以同时运行的作业数量?

1 个答案:

答案 0 :(得分:0)

我刚才想通了。我在这里发布答案,以防万一有人觉得将来有用。事实证明,分配给我每个作业的实例均为g4dn2xlarge。这些实例每个都占用8个vCPU。由于我的vCPU限制为16,因此只能同时运行2个作业。解决方案之一是要求AWS通过创建新的支持案例来增加vCPU的限制。另一个解决方案可能是修改计算环境,以使用消耗4个vCPU的GPU实例(在AWS上可能是最低的),在这种情况下,最多可以同时运行4个作业。