我有一台装有CentOS操作系统和两个NVIDIA GPU的PC,我想在Tensorflow中使用它们(我不熟悉CentOS,所以只能尝试在相应网站上找到的命令)。当前已经安装了当前的GPU驱动程序,但我没有更改。然后,我首先(错误地)按照NVIDIA网站上的指示安装了最新的Cuda工具包版本(10.1):
sudo yum-config-manager --add-repo http://developer.download.nvidia.com/compute/cuda/repos/rhel7/x86_64/cuda-rhel7.repo
sudo yum clean all
sudo yum -y install nvidia-driver-latest-dkms cuda
我还安装了CuDNN(本质上是将一些文件复制到相关目录)。 Tensorflow然后通知我,我必须恢复到工具箱版本10.0。我在cuda目录中找不到任何卸载文件,只是按照NVIDIA网站Cuda 10.0 installation中的说明安装了cuda toolkit 10.0。我注意到在那之后,我的/ usr / local中同时拥有10.0和10.1文件夹,但是还有一个cuda链接引用了cuda10.0。安装完成后,Tensorflow正常运行,一切正常,但当我尝试在模拟中停止tensorflow时系统停止运行,然后我无法再使用GPU。我尝试了nvidia-smi
命令(以前运行正常),但遇到了NVIDIA NVML Driver/library version mismatch
错误,并且重新启动系统无济于事。
我查看了不同的网站,并基于它们尝试卸载cuda重新安装它。但是我不知道该怎么做,因为cuda文件夹中没有卸载脚本。最终我运行了sudo yum remove cuda
,它报告说它已经删除了cuda10.1。但是我仍然收到Driver/library mismatch
错误,并且cuda10.1文件夹仍然存在。我还看到系统显示Repository cuda is listed more than once in the configuration
的日志输出中,我不知道它是什么意思。
如何在CentOS中删除以前的所有cuda工具包安装及其依赖项,以重新开始?