我得到一个节点在胖树IB中连接的集群。这些开关是Qlogic 12300。
我遇到的问题是某些节点无法相互通信。甚至还有其他节点可以与两个受影响的节点通信。
我用ibtracert来解决这个问题。令人惊奇的是,如果我在一个可以与两个节点通信的单独节点上运行该命令,它们就可以了,并报告了一条可行的路径。
但是,如果我从两个受影响的节点发出ibtracert命令,则会遇到错误。
我可以问一下这可能是什么原因吗?
感谢。
答案 0 :(得分:2)
两个HCA无法相互通信,因为这是您子网中的路由配置方式。 您可以从第三台计算机与两台“有问题”的计算机通话,这表明这不是主机问题,而是子网问题。
Infiniband路由是一个复杂的问题,仅根据您的描述我无法告诉如何修复它。
通常,子网管理器正在计算和配置所有交换机上的路由。 你使用什么样的子网管理器?是在某些主机上运行的OpenSM,还是在其中一个交换机上运行的Qlogic的SM?
如果是Qlogic,您需要转到他们的管理UI并更改/修复路由算法。
如果它是OpenSM,您可以使用“minhop
”路由运行它(运行"opensm -h"
以查看用法) - 这应该可以解决问题。
但是,这不会真正解决问题 - 你可能在子网拓扑中有一些不好的地方,如果/一旦minhop路由解决问题,你就需要关注这个问题。