如何在SLURM中获取单个进程/线程的统计信息?

时间:2016-11-25 07:21:40

标签: performance monitoring hpc slurm

如何从我的工作中监控每个正在运行的线程/进程?基本上,我希望看到类似于topps给出的输出:例如每个线程的CPU使用率,进程的内存使用量等等。

在SLURM中,有一个命令sstat,我可以在其中查看工作统计数据。例如,它允许我检查提交的作业请求的总CPU时间(用户+系统),RSS甚至CPU频率是多少。它不包含详细的每个进程(或线程)信息。

1 个答案:

答案 0 :(得分:0)

要获取流程级信息,您可以激活$SOLVER=... $SNAPSHOT=... $LOGGGING=... caffe train -solver $SOLVER -snapshot $SNAPSHOT 2>&1 | tee $LOGGING 插件,以便将大量指标收集到HDF5文件中打包的时间序列中。有关详细信息,请参阅此page

相关问题