Azure DSVM / DLVM上的nvidia错误

时间:2018-01-12 09:30:25

标签: azure gpu nvidia azure-dsvm

我一直在使用GPU在Azure上创建一些Ubuntu DSVM和DLVM,并且我不断收到间歇性错误。这些由nvidia-smi表现得非常慢或者出现以下错误: 2018/01/11 19:42:33 Error: nvml: Driver/library version mismatch

如果我尝试运行nvidia-sminvidia-docker,则会显示此信息。重启通常会修复它,但它可以重新出现。

这听起来像是间歇性错误吗?我有什么办法可以缓解这种情况吗?

1 个答案:

答案 0 :(得分:0)

NVIDIA刚刚为Azure中使用的GPU发布了新版本的GPU驱动程序。 Ubuntu DSVM配置为自动安装更新,因此将在后台为您安装这些更新。但问题是驱动程序已编译到内核中,因此必须重新启动才能获得新驱动程序。消息驱动程序/库版本不匹配表示内核中的版本无法使用已安装的库(因为它们已升级)。这就是重启通常会修复它的原因。

您可能面临的第二个问题:Azure几天前发布了一个与387版GPU驱动程序不兼容的新内核。默认情况下,您不会在DSVM上获得此驱动程序,但如果您安装了其他软件包,则可能会这样。这个错误是不同的 - 像 nvidia-smi无法与nvidia模块进行通信。修复它的唯一方法是(1)使用 apt update apt upgrade 获取最新内核,然后重新启动,以及(2)使用<安装不同的驱动程序em> apt install nvidia-384 。