在类似的服务器上,Openmpi分段错误随-np#的不同而不同

时间:2019-05-07 06:17:52

标签: segmentation-fault openmpi

我一直在试图弄清楚为什么在Arch Linux中运行openmpi时会出现分段错误(11),所有服务器都使用pacman -Syu进行了更新。

我已经从openmpi网站上编译了一个简单的“ hello world”程序。

库存,每台机器上的lscpu如下

Server3、18个内核,2个套接字,每个内核2个线程,72 cpus
我遇到了mpirun -np = 31的细分错误-超额预订
Server2 10个核心,2个套接字,每个核心2个线程,40 cpus
我遇到了mpirun -np = 62的细分错误-超额预订
Server1 10个核心,2个套接字,每个核心2个线程,40 cpus
我遇到了mpirun -np = 93的细分错误-超额预订
Server0 10个核心,2个套接字,每个核心2个线程,40 cpus
我遇到了mpirun -np = 31 —过度订阅

的细分错误

起初,我以为我可能遇到了硬件问题,因此我将其范围缩小到了软件问题,但无法确定问题出在哪里。所有服务器都具有相同的Arch Linux安装。我已将硬盘驱动器从server1移到server3,现在我可以运行mpirun -np = 72 -订阅hello_world,并且不会出现分段错误。

此外,如果我运行“ mpirun -np-超额订购的回声” hello world”,则不会出现分段错误。

我尝试使用“ pacman -R openmpi -nosave”删除并重新安装openmpi,然后重新安装,但仍然没有解决这个问题。

任何帮助将不胜感激。

0 个答案:

没有答案