我有一个无头工作站运行Ubuntu 12.04服务器并且最近安装了新的Tesla C2070卡,但是当从CUDA SDK运行示例时,我收到以下错误:
NVIDIA_GPU_Computing_SDK/C/bin/linux/release% ./reduction
[reduction] starting...
Using Device 0: Tesla C2070
Reducing array of type int
16777216 elements
256 threads (max)
64 blocks
reduction.cpp(473) : cudaSafeCallNoSync() Runtime API error 39 : uncorrectable ECC error encountered.
实际上,除“deviceQuery”之外的所有其他示例都会出现此错误。
我正在使用内核3.2.0,nvidia驱动程序295.41和Cuda 4.2.9。
经过大量搜索后发现了一条禁用ecc支持的建议:
nvidia-smi -g 0 --ecc-config=0
哪个有效。但问题是GPU计算的可靠性如何 与残疾人ecc支持?
任何建议,建议或解决方案都将受到高度赞赏。
-Konstantin
答案 0 :(得分:3)
我想知道这可能是某种兼容性问题,而不是坏卡。我遇到了与特斯拉C2075相同的问题,同样的Ubuntu版本。我们联系了nVidia,他们告诉我们双位ECC错误(如在linux中使用nvidia-smi -q所见)意味着该卡可能已损坏。我们获得了替代品,但它有完全相同的问题。
我所拥有的两块电路板似乎不太可能以同样的方式损坏,所以如果我们找到合适的电路板,我们就可以在另一台机器上试用它。
我会发布任何我们学到的有趣内容。
答案 1 :(得分:1)
我会回应奥兰德所说的话并增加我自己的经验。
我使用了许多配备Fermi的计算群集,并通过ECC开启和关闭对其进行了可变测试。我们这样做是为了增加可用内存量和计算速度,这是显而易见的。 nvidia-smi从未报告任何带有ECC的卡的ECC错误,也没有遇到任何表明ECC相关问题的运行时错误。
如果您的卡检测到无法纠正的ECC问题,则表示硬件存在缺陷,关闭ECC只会掩盖问题。运行时正确地警告你坏事出了问题,你不能依赖于结果。
你可以尝试运行你的计算,看看会发生什么,但要为没有真正原因的绝对疯狂做好准备。例如,这里或那里的单个位翻转会对浮点数学产生巨大影响,如果指令被破坏,可能会导致内核崩溃。
如果可以的话,我会尝试更换卡而不是屏蔽症状。
答案 2 :(得分:1)
事实证明我的情况与carthurs的情况相同。我也更换了我的卡,但是 错误没有消失。仅在将主板的板载VGA设置为主要内容之后 BIOS消失了。在特斯拉安装手册中应该有关于此的警告!
感谢大家的帮助。