slurm:如何防止删除工作信息?

时间:2018-05-01 12:06:10

标签: slurm sacct

使用sacct我想获取有关已完成作业的信息。

Answer提到我们如何才能获得工作信息。

我已经提交了一份工作名称jobName.sh,其中包含jobID 176.经过12个小时,新的200个工作岗位进入后,我想查看我的工作(jobID = 176)信息并获得{{ 1}}。

slurm_load_jobs error: Invalid job id specified

以下行不返回任何内容:scontrol show job 176 slurm_load_jobs error: Invalid job id specified

我认为有一个时间限制可以保留先前提交的工作信息,而这些信息在某种程度上是先前的工作'信息已被删除。那是有限度的吗?为了防止它们被删除,我怎么能设置这个限制非常大的值?

请注意,sacct --name jobName.sh位于slurm.conf。

2 个答案:

答案 0 :(得分:1)

Slurm documentation上提到:

  

MinJobAge完成作业记录之前的最小年龄   从Slurm的活动数据库中清除。设置MaxJobCount和的值   确保slurmctld守护进程不会耗尽其内存或其他内容   资源。默认值为300秒。值为零可防止   任何工作记录清除。为了消除一些可能的种族   条件,建议MinJobAge的最小非零值为2.

在我的slurm.conf文件中,MinJobAge为300,即5分钟。这就是为什么在5分钟后每个完成的工作信息被删除的原因。我增加了MinJobAge的值以防止删除操作。

答案 1 :(得分:0)

假设您使用mySQL存储该数据,在数据库配置文件 slurmdbd.conf 中,您可以调整清除时间等。这里有一些例子:

PurgeJobAfter=12hours
PurgeJobAfter=1month
PurgeJobAfter=24months

如果未设置(默认),则永远不会清除作业记录。

更多info