使用sacct
我想获取有关已完成作业的信息。
Answer提到我们如何才能获得工作信息。
我已经提交了一份工作名称jobName.sh
,其中包含jobID 176.经过12个小时,新的200个工作岗位进入后,我想查看我的工作(jobID = 176)信息并获得{{ 1}}。
slurm_load_jobs error: Invalid job id specified
以下行不返回任何内容:scontrol show job 176
slurm_load_jobs error: Invalid job id specified
我认为有一个时间限制可以保留先前提交的工作信息,而这些信息在某种程度上是先前的工作'信息已被删除。那是有限度的吗?为了防止它们被删除,我怎么能设置这个限制非常大的值?
请注意,sacct --name jobName.sh
位于slurm.conf。
答案 0 :(得分:1)
在Slurm documentation上提到:
MinJobAge完成作业记录之前的最小年龄 从Slurm的活动数据库中清除。设置MaxJobCount和的值 确保slurmctld守护进程不会耗尽其内存或其他内容 资源。默认值为300秒。值为零可防止 任何工作记录清除。为了消除一些可能的种族 条件,建议MinJobAge的最小非零值为2.
在我的slurm.conf
文件中,MinJobAge
为300,即5分钟。这就是为什么在5分钟后每个完成的工作信息被删除的原因。我增加了MinJobAge
的值以防止删除操作。
答案 1 :(得分:0)
假设您使用mySQL存储该数据,在数据库配置文件 slurmdbd.conf 中,您可以调整清除时间等。这里有一些例子:
PurgeJobAfter=12hours
PurgeJobAfter=1month
PurgeJobAfter=24months
如果未设置(默认),则永远不会清除作业记录。
更多info。