已禁用针对Tesla C2070和Ubuntu 12.04的ECC支持

时间:2012-09-06 08:16:12

标签: cuda runtime-error ubuntu-12.04 tesla

我有一个无头工作站运行Ubuntu 12.04服务器并且最近安装了新的Tesla C2070卡,但是当从CUDA SDK运行示例时,我收到以下错误:

NVIDIA_GPU_Computing_SDK/C/bin/linux/release% ./reduction 
[reduction] starting...

Using Device 0: Tesla C2070

Reducing array of type int

16777216 elements
256 threads (max)
64 blocks

reduction.cpp(473) : cudaSafeCallNoSync() Runtime API error 39 : uncorrectable ECC error encountered.

实际上,除“deviceQuery”之外的所有其他示例都会出现此错误。

我正在使用内核3.2.0,nvidia驱动程序295.41和Cuda 4.2.9。

经过大量搜索后发现了一条禁用ecc支持的建议:

   nvidia-smi -g 0 --ecc-config=0

哪个有效。但问题是GPU计算的可靠性如何 与残疾人ecc支持?

任何建议,建议或解决方案都将受到高度赞赏。

-Konstantin

3 个答案:

答案 0 :(得分:3)

我想知道这可能是某种兼容性问题,而不是坏卡。我遇到了与特斯拉C2075相同的问题,同样的Ubuntu版本。我们联系了nVidia,他们告诉我们双位ECC错误(如在linux中使用nvidia-smi -q所见)意味着该卡可能已损坏。我们获得了替代品,但它有完全相同的问题。

我所拥有的两块电路板似乎不太可能以同样的方式损坏,所以如果我们找到合适的电路板,我们就可以在另一台机器上试用它。

我会发布任何我们学到的有趣内容。

答案 1 :(得分:1)

我会回应奥兰德所说的话并增加我自己的经验。

我使用了许多配备Fermi的计算群集,并通过ECC开启和关闭对其进行了可变测试。我们这样做是为了增加可用内存量和计算速度,这是显而易见的。 nvidia-smi从未报告任何带有ECC的卡的ECC错误,也没有遇到任何表明ECC相关问题的运行时错误。

如果您的卡检测到无法纠正的ECC问题,则表示硬件存在缺陷,关闭ECC只会掩盖问题。运行时正确地警告你坏事出了问题,你不能依赖于结果。

你可以尝试运行你的计算,看看会发生什么,但要为没有真正原因的绝对疯狂做好准备。例如,这里或那里的单个位翻转会对浮点数学产生巨大影响,如果指令被破坏,可能会导致内核崩溃。

如果可以的话,我会尝试更换卡而不是屏蔽症状。

答案 2 :(得分:1)

事实证明我的情况与carthurs的情况相同。我也更换了我的卡,但是 错误没有消失。仅在将主板的板载VGA设置为主要内容之后 BIOS消失了。在特斯拉安装手册中应该有关于此的警告!

感谢大家的帮助。