应用错误收集

HPC群集上的并行作业的CPU使用率波动

时间：2016-05-27 11:17:29

标签： linux parallel-processing cpu

在我们大学，我们有2个专门用于运行量子化学计算的HPC集群。一个是旧的（自2009年以来），并且几个星期前安装了较新的一个。新旧集群系统中的每个计算刀片都有16个处理器。两个集群上都安装了相同的程序，并与OpenMpi 1.6.5配合使用。在旧群集上，每个刀片的处理器使用率稳定在100％，看起来像这样：

现在，当在新集群的计算刀片上运行完全相同的计算时，CPU使用率始终在0到100％之间波动，并且在大多数情况下看起来像这样：

旧集群上的计算，即使处理器属于老一代且功耗较低，也比新集群上的处理器完成的时间要短得多。两个集群系统都在运行RedHat linux enterprise

这可能是什么问题？以及如何解决它？

非常感谢您提供任何帮助。

1 个答案:

答案 0 :(得分：1)

我终于解决了这个问题。我想我会在这里发帖，以帮助任何可能遇到同样问题的人。在具有CPU频率问题的新集群上，计算直接在/ home分区上运行，该分区通过NFS（网络文件系统）连接到每个计算刀片。这大大减慢了计算速度并导致CPU频率低和等待时间过长，这可能是因为很多资源用于在刀片和/ home目录之间建立持续连接。当我修改脚本以使计算在每个刀片内的临时文件夹中运行时，问题就解决了。