在多GPU节点上使用NVIDIA MPS服务运行MPI代码时遇到问题。
我使用的系统有2个K80 GPU(总共4个GPU)。
基本上,我首先将GPU模式设置为exclusive_process:
nvidia_smi -c 3
然后我启动MPS服务:
nvidia-cuda-mps-control -d
当我增加进程数并运行我的代码时,我收到以下错误:
all CUDA-capable devices are busy or unavailable
以下是一个例子:
这是我的代码:
#include <stdio.h>
#include <stdlib.h>
#include "cuda_runtime.h"
#include "mpi.h"
#define __SIZE__ 1024
int main(int argc, char **argv)
{
cudaError_t cuda_err = cudaSuccess;
void *dev_buf;
MPI_Init(&argc, &argv);
int my_rank = -1;
int dev_cnt = 0;
int dev_id = -1;
MPI_Comm_rank(MPI_COMM_WORLD, &my_rank);
cuda_err = cudaGetDeviceCount(&dev_cnt);
if (cuda_err != cudaSuccess)
printf("cudaGET Error--on rank %d %s\n", my_rank, cudaGetErrorString(cuda_err));
dev_id = my_rank % dev_cnt;
printf("myrank=%d dev_cnt=%d, dev_id=%d\n", my_rank, dev_cnt, dev_id);
cuda_err = cudaSetDevice(dev_id);
if (cuda_err != cudaSuccess)
printf("cudaSet Error--on rank %d %s\n", my_rank, cudaGetErrorString(cuda_err));
cuda_err = cudaMalloc((void **) &dev_buf, __SIZE__);
if (cuda_err != cudaSuccess)
printf("cudaMalloc Error--on rank %d %s\n", my_rank, cudaGetErrorString(cuda_err))
else
printf("cudaMalloc Success++, %d \n", my_rank);
MPI_Finalize();
return 0;
}
以下是12个流程的输出:
#mpirun -n 12 -hostfile hosts ./hq_test
myrank=0 dev_cnt=4, dev_id=0
myrank=1 dev_cnt=4, dev_id=1
myrank=2 dev_cnt=4, dev_id=2
myrank=3 dev_cnt=4, dev_id=3
myrank=4 dev_cnt=4, dev_id=0
myrank=5 dev_cnt=4, dev_id=1
myrank=6 dev_cnt=4, dev_id=2
myrank=7 dev_cnt=4, dev_id=3
myrank=8 dev_cnt=4, dev_id=0
myrank=9 dev_cnt=4, dev_id=1
myrank=10 dev_cnt=4, dev_id=2
myrank=11 dev_cnt=4, dev_id=3
cudaMalloc Success++, 8
cudaMalloc Success++, 10
cudaMalloc Success++, 0
cudaMalloc Success++, 1
cudaMalloc Success++, 3
cudaMalloc Success++, 7
cudaMalloc Success++, 9
cudaMalloc Success++, 6
cudaMalloc Success++, 4
cudaMalloc Success++, 2
cudaMalloc Success++, 5
cudaMalloc Success++, 11
以下是14个流程的输出:
#mpirun -n 14 -hostfile hosts ./hq_test
myrank=0 dev_cnt=4, dev_id=0
myrank=1 dev_cnt=4, dev_id=1
myrank=2 dev_cnt=4, dev_id=2
myrank=3 dev_cnt=4, dev_id=3
myrank=4 dev_cnt=4, dev_id=0
myrank=5 dev_cnt=4, dev_id=1
myrank=6 dev_cnt=4, dev_id=2
myrank=7 dev_cnt=4, dev_id=3
myrank=8 dev_cnt=4, dev_id=0
myrank=9 dev_cnt=4, dev_id=1
myrank=10 dev_cnt=4, dev_id=2
myrank=11 dev_cnt=4, dev_id=3
myrank=12 dev_cnt=4, dev_id=0
myrank=13 dev_cnt=4, dev_id=1
cudaMalloc Success++, 11
cudaMalloc Success++, 3
cudaMalloc Success++, 7
cudaMalloc Success++, 2
cudaMalloc Success++, 10
cudaMalloc Success++, 6
cudaMalloc Success++, 1
cudaMalloc Success++, 8
cudaMalloc Error--on rank 13 all CUDA-capable devices are busy or unavailable
cudaMalloc Error--on rank 5 all CUDA-capable devices are busy or unavailable
cudaMalloc Error--on rank 9 all CUDA-capable devices are busy or unavailable
cudaMalloc Error--on rank 4 all CUDA-capable devices are busy or unavailable
cudaMalloc Error--on rank 0 all CUDA-capable devices are busy or unavailable
cudaMalloc Error--on rank 12 all CUDA-capable devices are busy or unavailable
注意:我已经尝试更改CUDA_DEVICE_MAX_CONNECTIONS值,但没有帮助。
如果你和我分享你的想法,我将不胜感激。
答案 0 :(得分:2)
根据交叉发布here中的信息(MPS服务器日志),此案例中的服务器日志表示MPS Documentation部分4.4中包含的已知问题:
内存分配API调用(包括上下文创建)可能会失败,并显示以下内容 服务器日志中的消息:MPS服务器无法创建/打开SHM段。 评论:这很可能是由于您的文件描述符限制耗尽 系统。检查您允许的最大打开文件描述符数 系统并在必要时增加。我们建议将其设置为16384及更高。 通常可以通过命令'ulimit -n'检查此信息;参考你的 操作系统有关如何更改限制的说明。