drd.ko缺少CUDA 6.5 / Ubuntu 14.04 / AWS EC2 GPU实例g2.2xlarge

时间:2014-08-23 16:20:50

标签: linux amazon-ec2 cuda nvidia ubuntu-14.04

在AWS EC2 g2.2xlarge实例上的Ubuntu 14.04.1 LTS上安装CUDA 6.5,无论是通过.deb文件还是.run文件安装

.sudo ./cuda_6.5.14_linux_64.run --kernel-source-path=/usr/src/linux-headers-3.13.0-34-generic

我总是得到关于缺少 drm.ko 的相同错误。代码编译似乎很成功。下面是日志。 (我在安装之前重新启动)

  

内核模块编译完成。

     

无法确定是否启用了安全启动:没有此类文件或目录

     

内核模块加载错误:没有这样的文件或目录

     

内核消息:

     

[3.595939] type = 1400 audit(1408809902.911:5):apparmor =“STATUS”

     

operation =“profile_replace”profile =“unconfined”

     

name =“/ usr / lib / NetworkManager / nm-dhcp-client.action”pid = 492

     

COMM = “apparmor_parser”

     

[3.595942] type = 1400 audit(1408809902.911:6):apparmor =“STATUS”

     

operation =“profile_replace”profile =“unconfined”

     

name =“/ usr / lib / connman / scripts / dhclient-script”pid = 492

     

COMM = “apparmor_parser”

     

[3.596140] type = 1400 audit(1408809902.915:7):apparmor =“STATUS”

     

operation =“profile_replace”profile =“unconfined”

     

operation =“profile_replace”profile =“unconfined”

     

name =“/ usr / lib / connman / scripts / dhclient-script”pid = 492

     

COMM = “apparmor_parser”

     

[4.696067] init:由TERM信号杀死的故障保护主进程(833)

     

[4.793261] type = 1400 audit(1408809904.107:8):apparmor =“STATUS”

     

operation =“profile_replace”profile =“unconfined”name =“/ sbin / dhclient”

     

pid = 952 comm =“apparmor_parser”

     

[4.793267] type = 1400 audit(1408809904.107:9):apparmor =“STATUS”

     

operation =“profile_replace”profile =“unconfined”

     

name =“/ usr / lib / NetworkManager / nm-dhcp-client.action”pid = 952

     

COMM = “apparmor_parser”

     

[5.036249] init:plymouth-upstart-bridge主要流程结束,   重生

     

[6.589233] init:udev-fallback-graphics主要流程(1203)   终止

     

状态为1

     

[136.367014] nvidia:模块许可证'NVIDIA'污染内核。

     

[136.367019]由于内核污染而禁用锁定调试

     

[136.370281] nvidia:模块验证失败:签名和/或

     

所需的密钥丢失 - 污染内核

     

[136.370383] nvidia:未知符号drm_open(错误0)

     

[136.370393] nvidia:未知符号drm_poll(错误0)

     

[136.370404] nvidia:未知符号drm_pci_init(错误0)

     

[136.370449] nvidia:未知符号drm_gem_prime_handle_to_fd(错误)   0)

     

[136.370462] nvidia:未知符号drm_gem_private_object_init(错误)   0)

     

[136.370474] nvidia:未知符号drm_gem_mmap(错误0)

     

[136.370478] nvidia:未知符号drm_ioctl(错误0)

     

[136.370486] nvidia:未知符号drm_gem_object_free(错误0)

     

[136.370496] nvidia:未知符号drm_read(错误0)

     

[136.370509] nvidia:未知符号drm_gem_handle_create(错误0)

     

[136.370515] nvidia:未知符号drm_prime_pages_to_sg(错误0)

     

[136.370550] nvidia:未知符号drm_pci_exit(错误0)

     

[136.370563] nvidia:未知符号drm_release(错误0)

     

[136.370565] nvidia:未知符号drm_gem_prime_export(错误0)

     

驱动程序安装无法找到内核源代码。请   确保安装并设置了内核源包   正确。

2 个答案:

答案 0 :(得分:9)

错误是由NVIDIA驱动程序所需的drm模块丢失引起的。 默认情况下,Ubuntu AMI安装最小的通用Linux内核(linux-image-virtual),它不包含drm模块。 要修复它,请安装完整的通用内核linux-image-generic。 安装linux-image-extra-virtual会起作用,因为它只是linux-image-generic的过渡包。我建议安装linux-generic来包含头文件和图像。 总结一下:

sudo apt-get install linux-generic

AWS forum

上提出了类似的问题

答案 1 :(得分:4)

实际上,在刚刚启动GPU实例后,apt-get upgrade希望将4个包保留为linux-virtuallinux-image-virtual。我仍然安装它们,所以我没有更多的升级。 (新设置没有以前的nvidia或任何nouveau驱动程序。)

问题是linux-image-virtual是精简版,没有drm.ko。只是做

sudo apt-get install linux-image-extra-virtual

包含drm.ko

然后继续使用.deb.run文件安装CUDA。