应用错误收集

长时间运行后，tensorflow抛出CUDA_ERROR_LAUNCH_FAILED

时间：2017-09-15 13:59:36

标签： tensorflow

我正在训练CNN。本周3次出现以下错误。它们都是在长时间运行后出现的（例如，419140步）。

这是部分日志：

2017-09-15 11：16：03.515396：步骤419120，损失= 0.30（4427.4 实例/秒; 0.029秒/批次）2017-09-15 11：16：03.766922：步骤 419130，损失= 0.38（5089.0实例/秒; 0.025秒/批）2017-09-15 11：16：04.073978：步骤419140，损失= 0.40（4168.5实例/秒; 0.031 秒/批）2017-09-15 20：48：03.734101：E tensorflow / stream_executor / cuda / cuda_event.cc：49]错误轮询事件状态：无法查询事件：CUDA_ERROR_LAUNCH_FAILED 2017-09-15 20：48：03.734133：F tensorflow / core / common_runtime / gpu / gpu_event_mgr.cc：203]意外活动状态：1

如果我重新开始训练，tensorflow将不会使用GPU，这里是相关的日志：

2017-09-15 21：54：38.681074：E tensorflow / stream_executor / cuda / cuda_driver.cc：406]调用失败 cuInit：CUDA_ERROR_UNKNOWN

要让GPU再次运行，我必须重新启动计算机。

似乎错误发生在我不熟悉的c ++文件中。有人可以给我一些关于如何调试或解决此错误的建议吗？

2 个答案:

答案 0 :(得分：0)

我再次遇到错误。这次我注意到有消息说：核心倾倒了，我忘了保存消息。但根据我的经验，程序（或python或OS）应保存一些转储/日志文件进行分析。我能找到的任何线索吗？

我找到了原因。当我将计算机置于挂起（S3）时，当我的计算机从S3恢复时，会发生此错误，此错误发生。也许CUDA驱动程序还不支持Linux上的S3。我有空的时候会在nvidia官方网站上深入挖掘。

答案 1 :(得分：0)

我遇到了同样的问题，并且找到了为什么会在这里发生的建议：https://devtalk.nvidia.com/default/topic/1046479/gpu-occasionally-gets-lost-when-running-tensorflow-/

显然，当Nvidia GPU过热时，会引发此错误！