我为MPI设置了两个节点,aml1(master)和aml2(worker)。我正在尝试使用带有R脚本的mpirun并使用Rmpi和doMPI库。这两台机器的规格是相同的:
On RHEL 7.3
# lscpu
Architecture: x86_64
CPU op-mode(s): 32-bit, 64-bit
Byte Order: Little Endian
CPU(s): 32
On-line CPU(s) list: 0-31
Thread(s) per core: 2
Core(s) per socket: 8
Socket(s): 2
NUMA node(s): 2
Vendor ID: GenuineIntel
CPU family: 6
Model: 45
Model name: Intel(R) Xeon(R) CPU E5-2690 0 @ 2.90GHz
Stepping: 7
CPU MHz: 2900.000
BogoMIPS: 5790.14
Virtualization: VT-x
L1d cache: 32K
L1i cache: 32K
L2 cache: 256K
L3 cache: 20480K
NUMA node0 CPU(s): 0-7,16-23
NUMA node1 CPU(s): 8-15,24-31
If you care to see hwloc lstopo output.
我正在使用OpenMPI 1.10.5,我可以看到在aml1和aml2上运行的进程。但是,当我增加从mpirun产生的工作人员数量时,我没有看到我的测试脚本运行得更快,因此我没有看到任何计算时间的减少。这使我假设mpirun没有正确检测可用的内核数量,或者我在主机文件或rankfile中错误地分配了它。
如果我将主机文件或rankfile更改为不同的插槽值:
$ cat hosts
aml1 slots=4 max_slots=8 #I can change this to 10 slots
aml2 slots=4
$ cat rankfile
rank 0=aml1 slot=0:0
rank 1=aml1 slot=0:1
rank 2=aml1 slot=0:2
rank 3=aml1 slot=0:3
rank 4=aml2 slot=0:6
rank 5=aml2 slot=0:7 #I can add more ranks
然后我跑:
$ mpirun -np 1 --hostfile hosts --rankfile rankfile R --slave -f example7.R
$ cat example7.R
library(doMPI)
cl <- startMPIcluster(verbose=TRUE)
registerDoMPI(cl)
system.time(x <- foreach(seed=c(7, 11, 13), .combine="cbind") %dopar% {
set.seed(seed)
rnorm(90000000)
})
closeCluster(cl)
mpi.quit(save="no")
我仍然得到类似的系统时间:
Spawning 5 workers using the command:
5 slaves are spawned successfully. 0 failed.
user system elapsed
9.023 7.396 16.420
Spawning 25 workers using the command:
25 slaves are spawned successfully. 0 failed.
user system elapsed
4.752 8.755 13.508
我还尝试使用tm configure选项设置Torque并构建openmpi,但我对此有不同的问题。我相信我没有必要使用Torque来完成我想做的事情,但请确认我是否不正确。
我想要做的是使用Rmpi和doMPI运行R脚本。 R脚本本身应该只运行一次,一段代码产生到集群。我想最大化两个节点上可用的核心(aml,aml2)。
感谢社区的任何帮助!
这里有更多细节: 我运行以下命令,更改每次运行的主机文件:
$ mpirun -np 1 --hostfile hosts [using --map-by slot or node] R --slave -f example7.R
+----------------+-----------------+-----------------+
| | //--map-by node | //--map-by slot |
+----------------+-----------------+-----------------+
| slots per host | time | time |
| 2 | 24.1 | 24.109 |
| 4 | 18 | 12.605 |
| 4 | 18.131 | 12.051 |
| 6 | 18.809 | 12.682 |
| 6 | 19.027 | 12.69 |
| 8 | 18.982 | 12.82 |
| 8 | 18.627 | 12.76 |
+----------------+-----------------+-----------------+
我应该减少时间吗?或者这是不是很好?我觉得我应该能够将每个主机的插槽数增加到30以获得最佳性能,但每个主机的插槽数大约为4个。
答案 0 :(得分:0)
我想我找到了自己问题的答案。
由于我是新手,我假设Torque会自动使用机器/节点上可用的所有“核心”。由于我有32个核心,我期望每个节点产生32个工人。但实际上,有16个物理内核,这16个内核中的每一个都具有超线程,这使得16x2内核可用于一台机器上。根据我的理解,Torque每个处理器(或本例中的物理核心)启动一个进程。所以我不应该期望每个节点产生32个工人。
我查看了有关NUMA支持的更多信息,并且根据Open MPI FAQ,RHEL通常需要在构建之前安装numactl-devel软件包以支持内存关联。所以我为每个节点做了这个,我实际上能够通过Torque运行R脚本,定义8个内核,或每个节点16个内核。现在计算时间非常相似。如果我将每个节点的核心数增加到18/20,则性能会按预期下降。
以下是Torque和Open MPI的.configure选项:
./configure --enable-cgroups --with-hwloc-path=/usr/local --enable-autorun --prefix=/var/spool/torque
./configure --prefix=/var/nfsshare/openmpi1.10.5-tm-3 --with-tm=/var/spool/torque/