我正在训练CNN。本周3次出现以下错误。它们都是在长时间运行后出现的(例如,419140步)。
这是部分日志:
2017-09-15 11:16:03.515396:步骤419120,损失= 0.30(4427.4 实例/秒; 0.029秒/批次)2017-09-15 11:16:03.766922:步骤 419130,损失= 0.38(5089.0实例/秒; 0.025秒/批)2017-09-15 11:16:04.073978:步骤419140,损失= 0.40(4168.5实例/秒; 0.031 秒/批)2017-09-15 20:48:03.734101:E tensorflow / stream_executor / cuda / cuda_event.cc:49]错误轮询 事件状态:无法查询事件:CUDA_ERROR_LAUNCH_FAILED 2017-09-15 20:48:03.734133:F tensorflow / core / common_runtime / gpu / gpu_event_mgr.cc:203]意外 活动状态:1
如果我重新开始训练,tensorflow将不会使用GPU,这里是相关的日志:
2017-09-15 21:54:38.681074:E tensorflow / stream_executor / cuda / cuda_driver.cc:406]调用失败 cuInit:CUDA_ERROR_UNKNOWN
要让GPU再次运行,我必须重新启动计算机。
似乎错误发生在我不熟悉的c ++文件中。有人可以给我一些关于如何调试或解决此错误的建议吗?
答案 0 :(得分:0)
我再次遇到错误。这次我注意到有消息说:核心倾倒了,我忘了保存消息。但根据我的经验,程序(或python或OS)应保存一些转储/日志文件进行分析。我能找到的任何线索吗?
我找到了原因。当我将计算机置于挂起(S3)时,当我的计算机从S3恢复时,会发生此错误,此错误发生。也许CUDA驱动程序还不支持Linux上的S3。我有空的时候会在nvidia官方网站上深入挖掘。
答案 1 :(得分:0)
我遇到了同样的问题,并且找到了为什么会在这里发生的建议:https://devtalk.nvidia.com/default/topic/1046479/gpu-occasionally-gets-lost-when-running-tensorflow-/
显然,当Nvidia GPU过热时,会引发此错误!