什么是InfiniBand-Stacks?

时间:2014-06-18 22:23:31

标签: mpi openmpi infiniband

我想请你解释什么是“InfiniBand-Stacks”。这些最近在我们的机器上更改了,我开始遇到MPI通信故障。我需要一些信息才能理解这可能会影响我的并行作业的稳定性。

我收到的实际错误消息是:

  

进程无法创建队列对。这通常意味着   设备已用完队列对(连接太多)或有   资源不足以分配队列对(out of   记忆)。如果1)内存不足,后者就会发生   可用,或2)不能再注册物理内存了   设备

     端点回复开始连接中的

[connect / btl_openib_connect_oob.c:867:rml_recv_cb]错误

2 个答案:

答案 0 :(得分:1)

通常当有人在谈论某种"堆栈"当它与软件有关时,它们意味着驱动程序/库/等。控制特定的硬件。例如,网络"堆栈"可能表示应用程序与物理网络接口卡(NIC)之间的所有网络软件层。这可能就是你在这种情况下的意思。

当然,还有与内存分配相关的其他类型的软件堆栈,但这不是什么。

无论如何,如果您没有更改应用程序中的任何内容(包括您运行它的环境)并且系统管理员最近更新了InfiniBand驱动程序,那么可能会有一些Open MPI和InfiniBand库之间的一些错误。通常情况并非如此,但您可以直接询问Open MPI人员。其中一些人在这里闲逛,但在大多数情况下,您需要通过电子邮件users [at] open-mpi [dot] org直接与他们联系。

答案 1 :(得分:0)

" openib"在该消息中表明,您的OpenFabrics OFED发生了变化并可能导致问题:https://www.openfabrics.org/index.php。看看你是否可以改变它或隔离软件堆栈的其他部分,如OpenMPI版本和应用程序代码。

此外,如果您正在使用IMPI,请与英特尔联系以获取支持。根据有多少用户,建议检查OpenMPI是一个很好的建议,但他们对英特尔产品的帮助不大。