我有用mpi4py编写的paralell python程序。我正试图让它分发。我设置虚拟机,安装openmpi,openssh服务器,交换密钥等等。在本地机器上我有hostfile:
<filter foo.bar>
@type record_transformer
<record>
hostname "#{Socket.gethostname}"
tag ${tag}
</record>
</filter>
我尝试使用以下命令运行程序:
127.0.0.1 slots=4
192.168.1.104 slots=2
但是我收到以下错误:
[Kreutz:13090] tcp_peer_recv_connect_ack:标头类型无效:0
ORTE无法可靠地启动一个或多个守护进程。这通常是 由:
引起的
- 配置OMPI
未在一个或多个节点上找到所需的库和/或二进制文件。请检查您的PATH和LD_LIBRARY_PATH设置,或 使用--enable-orterun-prefix-by-default
缺乏在一个或多个指定节点上执行的权限。请验证您的分配和权限。
无法将启动文件写入/ tmp(--tmpdir / orte_tmpdir_base)。请咨询您的系统管理员 确定要使用的正确位置。
在需要静态时(例如,在Cray上)编译动态库。请检查配置cmd行和 考虑使用其中一个contrib / platform定义 系统类型。
由于缺少常见的网络接口和/或它们之间没有找到路由,无法创建回到mpirun的连接。 请检查网络连接(包括防火墙和网络) 路由要求)。
我现在不知道该怎么做。你有什么想法我可以试试吗?