在扩展以运行所有25000个任务之前,我正在测试具有5个任务的SLURM作业阵列。每个任务都有一个250 000行的输入文件,并应输出相同250 000行的文件。第一个任务运行正常并正确输出,然后所有四个后续任务退出"超出作业内存"大约2000行的消息
我尝试将内存分配从1M增加到10M,然后一个任务完成,另一个任务达到20万行,其余三个达到约20 000行。
我认为每项任务都应该独立运行,但事实似乎并非如此。我错过了什么吗?任何评论都非常感谢!
#SBATCH --ntasks=1
#SBATCH --cpus-per-task=1
#SBATCH --time=01:40:00
#SBATCH --mem-per-cpu=10M
#SBATCH --array=0-4
这是神圣的输出:
JobID JobName MaxRSS Elapsed
------------ ---------- ---------- ----------
6746476_4 query.arr+ 00:06:40
6746476_4.b+ batch 30611K 00:06:41
6746476_4.e+ extern 694K 00:06:40
6746476_0 query.arr+ 01:18:07
6746476_0.b+ batch 31016K 01:18:08
6746476_0.e+ extern 690K 01:18:07
6746476_1 query.arr+ 01:29:48
6746476_1.b+ batch 30793K 01:29:48
6746476_1.e+ extern 692K 01:29:48
6746476_2 query.arr+ 00:06:40
6746476_2.b+ batch 31328K 00:06:45
6746476_2.e+ extern 694K 00:06:40
6746476_3 query.arr+ 00:06:40
6746476_3.b+ batch 30467K 00:06:43
6746476_3.e+ extern 692K 00:06:40