无法在Beowulf群集上正确运行个人作业。示例工作正常

时间:2017-09-11 21:53:35

标签: python ubuntu mpi cluster-computing mpich

我最近使用一个主节点和两个客户端节点建立了Beowulf群集。客户端节点都共享主节点的/home/mpiuser/目录,并且无论何时在主节点上更改目录,都会自动更新。我已经成功运行了使用以下命令

下载MPICH2时给出的编译cpi文件示例
$ mpiexec -f hosts -n 3 /home/mpiuser/mpich2-1.4.1/examples/cpi

,它提供以下输出

Process 0 of 3 is on Master
Process 2 of 3 is on Slave2
Process 1 of 3 is on Slave1
pi is approximately 3.1415926544231318, Error is 0.0000000008333387
wall clock time = 0.001477

然后当我尝试运行我在这里创建的python文件:/home/mpiuser/Development/fact_test.py时,使用此命令

$ mpiexec -f hosts -n 3 /home/mpiuser/Development/fact_test.py

我收到以下错误

[proxy:0:0@Master] HYDU_create_process (./utils/launch/launch.c:69): execvp error on file /home/mpiuser/Development/fact_test.py (Permission denied)
[proxy:0:1@Slave1] HYDU_create_process (./utils/launch/launch.c:69): execvp error on file /home/mpiuser/Development/fact_test.py (Permission denied)
[proxy:0:2@Slave2] HYDU_create_process (./utils/launch/launch.c:69): execvp error on file /home/mpiuser/Development/fact_test.py (Permission denied)

此外,我还可以使用此输入和输出正确获取主节点和客户机节点的名称:

$ mpirun --machinefile hosts hostname
Master
Slave1
Slave2

我不太确定错误的来源。一些其他信息: MPICH2版本:1.4.1 Python版本:3.5.2

fact_test.py:

import scipy as sp
import time

def factorial_func(i):
    return sp.math.factorial(i)

if __name__ == "__main__":
    i = 1e5
    t0 = time.time()
    fac = factorial_func(i)
    t1 = time.time()
    print(t1-t0)

如果您需要更多信息,我很乐意提供。谢谢!

1 个答案:

答案 0 :(得分:3)

您可以在登录节点上运行/home/mpiuser/Development/fact_test.py吗?

我怀疑它 - 使用python解释器没有魔术头 - 该文件可能无法执行

一个选项是在文件的最开头添加

#!/usr/bin/python

然后

chmod 755 /home/mpiuser/Development/fact_test.py

和其他选项是手动使用python解释器,你的mpiexec命令将成为

mpiexec -f hosts -n 3 python /home/mpiuser/Development/fact_test.py