我在Linux上使用TensorFlow v1.4.1和Tesla P100 GPU。当我尝试训练我的网络时,收到此错误:
tensorflow/stream_executor/cuda/cuda_dnn.cc:3111] cudnnGetConvolutionBackwardDataWorkspaceSize() returned negative sizeInBytes value. This could be a cudnn bug.
我不确定此警告的含义。我还看到,从检查点恢复后,损失与保存检查点之前的损失不同。
任何指针都会有所帮助。我试着查看代码here,这对我来说并不是很清楚。
答案 0 :(得分:0)
不是我知道解决方案,但我发现了同样的问题。这似乎发生在我的网络较大时。也许这与记忆问题有关。