长时间运行后,tensorflow抛出CUDA_ERROR_LAUNCH_FAILED

时间:2017-09-15 13:59:36

标签: tensorflow

我正在训练CNN。本周3次出现以下错误。它们都是在长时间运行后出现的(例如,419140步)。

这是部分日志:

  

2017-09-15 11:16:03.515396:步骤419120,损失= 0.30(4427.4   实例/秒; 0.029秒/批次)2017-09-15 11:16:03.766922:步骤   419130,损失= 0.38(5089.0实例/秒; 0.025秒/批)2017-09-15   11:16:04.073978:步骤419140,损失= 0.40(4168.5实例/秒; 0.031   秒/批)2017-09-15 20:48:03.734101:E   tensorflow / stream_executor / cuda / cuda_event.cc:49]错误轮询   事件状态:无法查询事件:CUDA_ERROR_LAUNCH_FAILED   2017-09-15 20:48:03.734133:F   tensorflow / core / common_runtime / gpu / gpu_event_mgr.cc:203]意外   活动状态:1

如果我重新开始训练,tensorflow将不会使用GPU,这里是相关的日志:

  

2017-09-15 21:54:38.681074:E   tensorflow / stream_executor / cuda / cuda_driver.cc:406]调用失败   cuInit:CUDA_ERROR_UNKNOWN

要让GPU再次运行,我必须重新启动计算机。

似乎错误发生在我不熟悉的c ++文件中。有人可以给我一些关于如何调试或解决此错误的建议吗?

2 个答案:

答案 0 :(得分:0)

我再次遇到错误。这次我注意到有消息说:核心倾倒了,我忘了保存消息。但根据我的经验,程序(或python或OS)应保存一些转储/日志文件进行分析。我能找到的任何线索吗?

我找到了原因。当我将计算机置于挂起(S3)时,当我的计算机从S3恢复时,会发生此错误,此错误发生。也许CUDA驱动程序还不支持Linux上的S3。我有空的时候会在nvidia官方网站上深入挖掘。

答案 1 :(得分:0)

我遇到了同样的问题,并且找到了为什么会在这里发生的建议:https://devtalk.nvidia.com/default/topic/1046479/gpu-occasionally-gets-lost-when-running-tensorflow-/

显然,当Nvidia GPU过热时,会引发此错误!