获取SLURM集群中节点的启动和失败历史记录

时间:2019-11-27 16:06:09

标签: slurm

我需要找出SLURM集群中的每个节点每周保持DOWN状态多长时间。 如果我可以访问带有时间戳的日志或历史记录以了解节点何时启动和关闭,那将是可能的。

我目前的方法是定期发出scontrol show nodes命令并解析输出。 但是,此解决方案的功能不足以说明在探针之间正在关闭和重新启动节点的情况。

关于如何实现此目标的任何见解或澄清都被广泛接受。

1 个答案:

答案 0 :(得分:0)

sacctmgr list event命令列出了与节点有关的所有事件

来自sacctmgr manpage

  

事件事件,例如群集上的节点崩溃或耗尽。

即使您不是管理员,也可以发出该命令。

示例输出:

[user@clustername ~]$ sacctmgr list event
   Cluster        NodeName           TimeStart             TimeEnd  State                         Reason       User
---------- --------------- ------------------- ------------------- ------ ------------------------------ ----------
clustername node022        2019-11-19T08:55:26             Unknown  DOWN*       NO NETWORK ADDRESS FOUND slurm(555)
clustername node023        2019-11-19T08:57:08             Unknown DRAIN*               Kill task failed    root(0)