我有一个包含10个节点的集群,所有节点都有类似的操作系统(ubuntu 10.4)。我想监控每个节点的性能,基本上捕获cpu,内存等在给定时间。我如何捕获相同的在每个节点上聚合结果以获得组合结果示例整个集群的平均CPU使用率。
我可以运行任何命令并获得结果。
先谢谢。
答案 0 :(得分:1)
您可以使用pbsnodes命令的输出来捕获此信息。如果你看一下状态:
status = rectime = 1319751989,varattr =,jobs =,state = free,netload = 904408724,gres =,loadave = 0.63,ncpus = 6,physmem = 8193856kb,availmem = 14823060kb,totmem = 16581436kb,idletime = 362, nusers = 1,nsessions = 15,sessions = 1788 1171 19146 19183 19197 19207 19217 19282 19329 19553 19617 20238 20292 20535 20601,uname = Linux napali 2.6.38-12-generic#51-Ubuntu SMP Wed Sep 28 14:27:32 UTC 2011 x86_64,opsys = linux
您可以看到它具有计算机的平均负载,以及有关计算机内存状态的若干信息。通过编写一些解析的脚本来执行您正在寻找的计算,您可以解决您的问题。