在我们大学,我们有2个专门用于运行量子化学计算的HPC集群。一个是旧的(自2009年以来),并且几个星期前安装了较新的一个。新旧集群系统中的每个计算刀片都有16个处理器。两个集群上都安装了相同的程序,并与OpenMpi 1.6.5配合使用。在旧群集上,每个刀片的处理器使用率稳定在100%,看起来像这样:
现在,当在新集群的计算刀片上运行完全相同的计算时,CPU使用率始终在0到100%之间波动,并且在大多数情况下看起来像这样:
旧集群上的计算,即使处理器属于老一代且功耗较低,也比新集群上的处理器完成的时间要短得多。 两个集群系统都在运行RedHat linux enterprise
这可能是什么问题?以及如何解决它?
非常感谢您提供任何帮助。
答案 0 :(得分:1)
我终于解决了这个问题。我想我会在这里发帖,以帮助任何可能遇到同样问题的人。 在具有CPU频率问题的新集群上,计算直接在/ home分区上运行,该分区通过NFS(网络文件系统)连接到每个计算刀片。这大大减慢了计算速度并导致CPU频率低和等待时间过长,这可能是因为很多资源用于在刀片和/ home目录之间建立持续连接。 当我修改脚本以使计算在每个刀片内的临时文件夹中运行时,问题就解决了。