使用mpi4py的Openmpi不能在多个节点上运行

时间:2018-06-11 23:47:14

标签: python python-2.7 openmpi mpi4py

我有用mpi4py编写的paralell python程序。我正试图让它分发。我设置虚拟机,安装openmpi,openssh服务器,交换密钥等等。在本地机器上我有hostfile:

<filter foo.bar>
  @type record_transformer
  <record>
    hostname "#{Socket.gethostname}"
    tag ${tag}
  </record>
</filter>

我尝试使用以下命令运行程序:

127.0.0.1 slots=4
192.168.1.104 slots=2

但是我收到以下错误:

  

[Kreutz:13090] tcp_peer_recv_connect_ack:标头类型无效:0

     

ORTE无法可靠地启动一个或多个守护进程。这通常是   由:

引起的      
      
  • 未在一个或多个节点上找到所需的库和/或二进制文件。请检查您的PATH和LD_LIBRARY_PATH设置,或   使用--enable-orterun-prefix-by-default

  • 配置OMPI   
  • 缺乏在一个或多个指定节点上执行的权限。请验证您的分配和权限。

  •   
  • 无法将启动文件写入/ tmp(--tmpdir / orte_tmpdir_base)。请咨询您的系统管理员   确定要使用的正确位置。

  •   
  • 在需要静态时(例如,在Cray上)编译动态库。请检查配置cmd行和   考虑使用其中一个contrib / platform定义   系统类型。

  •   
  • 由于缺少常见的网络接口和/或它们之间没有找到路由,无法创建回到mpirun的连接。   请检查网络连接(包括防火墙和网络)   路由要求)。

  •   

我现在不知道该怎么做。你有什么想法我可以试试吗?

0 个答案:

没有答案