我正在使用MPI + CUDA混合模式来编程GPU集群以进行矩阵乘法。当我通过MPI和CUDA将乘法运算卸载到GPU时,它会在运行时给出错误消息:
致命:插入nvidia时出错(/lib/modules/3.2.0-23-generic-pae/kernel/drivers/video/nvidia.ko):没有这样的设备
MPI用于传输数据块,然后在接收数据时,调用通用C函数来触发CUDA内核。 测试设置有3台机器,每台机器都有单GPU。 我用CUDA测试了本地版本。我没有得到任何错误消息,但算法的答案是错误的(即使是小的简单算法)。
出现此错误的原因是什么? 请注意,这只是在我尝试将MPI与CUDA一起使用时。仅CUDA版本运行良好。提前谢谢。
答案 0 :(得分:0)
错误是因为Nouveau正在控制GPU,而不是NVIDIA驱动程序。因此,在安装NVIDIA驱动程序和CUDA工具包之前,应将nouveau列入黑名单。
sudo nano /etc/modprobe.d/blacklist.conf
在文件末尾插入nouveau
。
如果已安装NVIDIA驱动程序,请重新安装NVIDIA驱动程序。