我刚刚开始使用AWS BATCH进行深度学习工作。我已经使用以下配置创建了计算环境:
我的帐户的最大vCPU限制数为16,每个作业都需要16GB的内存。我观察到在任何时间点最多可以同时运行2个作业。我以前使用过allocation strategy: BEST_FIT
,并将其更改为allocation strategy: BEST_FIT_PROGRESSIVE
,但我仍然看到只能同时运行2个作业。这限制了我在给定时间内可以做的实验数量。我该怎么做才能增加可以同时运行的作业数量?
答案 0 :(得分:0)
我刚才想通了。我在这里发布答案,以防万一有人觉得将来有用。事实证明,分配给我每个作业的实例均为g4dn2xlarge。这些实例每个都占用8个vCPU。由于我的vCPU限制为16,因此只能同时运行2个作业。解决方案之一是要求AWS通过创建新的支持案例来增加vCPU的限制。另一个解决方案可能是修改计算环境,以使用消耗4个vCPU的GPU实例(在AWS上可能是最低的),在这种情况下,最多可以同时运行4个作业。