在测试一块包含内存错误的CUDA时,我的屏幕被冻结了。重新启动后,我无法再检测到显卡。我的代码可能会对卡进行物理损坏吗?
这发生在Ubuntu 14.04下。我不知道卡片的型号,因为我无法察觉,但我记得它是一个相当新的。
答案 0 :(得分:3)
感谢所有评论,我解决了这个问题。
我将列出我所采取的行动。我不确定他们是否都有效果,但最终问题得到了解决。
首先,我断开了显卡的连接并重启了它。然后我再次插入卡并重新启动。我被扔到一个菜单,据说我在低图形模式下运行。我打开tty
( ctrl + alt + 1 )并尝试使用说明{{重新安装Nvidia驱动程序3}}
它最初失败了,因为新手司机正在运行(我认为这是整个问题的主要罪魁祸首)。
我将此here后的驱动程序列入黑名单。
总之创建文件/ etc/modprobe.d/blacklist-nouveau.conf
并添加:
blacklist nouveau
blacklist lbm-nouveau
options nouveau modeset=0
alias nouveau off
alias lbm-nouveau off
然后我重新启动了。到那时我的屏幕开始正常工作但我无法启动ubuntu
桌面。我重新安装了cuda驱动程序(有一些错误,但没有致命的错误)。
然后我重新启动,我的屏幕再次运行。
回答主要问题:我没有通过测试CUDA
代码来损坏显卡。
答案 1 :(得分:0)
我遇到了与GPU密集型代码相同的问题,罪魁祸首是GPU没有得到适当的冷却;在制造商用C2075(几乎相同的GPU但主动冷却)替换m2090后,再没有问题了。在此之前,我们更换了MOBO和GPU,没有任何改进。
GPU没有损坏,它只是进入保护模式,并在冷却后再次正常工作。