我需要找出SLURM集群中的每个节点每周保持DOWN状态多长时间。 如果我可以访问带有时间戳的日志或历史记录以了解节点何时启动和关闭,那将是可能的。
我目前的方法是定期发出scontrol show nodes
命令并解析输出。
但是,此解决方案的功能不足以说明在探针之间正在关闭和重新启动节点的情况。
关于如何实现此目标的任何见解或澄清都被广泛接受。
答案 0 :(得分:0)
sacctmgr list event
命令列出了与节点有关的所有事件
事件事件,例如群集上的节点崩溃或耗尽。
即使您不是管理员,也可以发出该命令。
示例输出:
[user@clustername ~]$ sacctmgr list event
Cluster NodeName TimeStart TimeEnd State Reason User
---------- --------------- ------------------- ------------------- ------ ------------------------------ ----------
clustername node022 2019-11-19T08:55:26 Unknown DOWN* NO NETWORK ADDRESS FOUND slurm(555)
clustername node023 2019-11-19T08:57:08 Unknown DRAIN* Kill task failed root(0)