我正在尝试使用openMPI设置一个相对较小的集群(36个核心),但我遇到了一个小问题。我已经安装并运行了所有openMPI库和任何依赖项(我可以在每台计算机上运行hello world MPI程序作为localhost)。问题是我似乎找不到太多关于如何让计算机一起执行程序的文档。我可以执行mpirun --hostfile命令,但我不想每次执行作业时都指定主机文件。此外,未来的用户将无法始终访问群集上的所有IP地址。他们和我希望能够执行mpirun -np 20 programFile没有问题。有人能从这一点为我需要做些什么提供指导吗?公平地说,我在大学里只选了一门用MPI编写并行程序的课程,但他们从未向我们展示如何使用openMPI设置新的集群。我感谢你们给予的任何建议。我通过我的搜索MPICH_Cluster_Setup找到了这个指南,如果它是openMPI会很棒。是否有类似于openMPI的指南?
答案 0 :(得分:1)
您应该使用Torque,SLURM或SGE等集群调度程序(所有都是免费的/ FOSS)。这些允许用户保留节点供其使用,并且所有“通话”打开MPI以告诉它用于该用户作业的节点(因此他们不必使用主机文件)。
根据MPICH集群设置文档,它只是您打开MPI所需要的,但最后不需要设置MPD(MPICH已经弃用了MPD,无论如何)。