CUDNN大批量的backprop错误

时间:2017-07-24 09:31:38

标签: python python-3.x pytorch cudnn autograd

我实施了MLP,RNN,CNN的组合。批量大小为420,一切似乎都运行正常(我没有得到任何错误)。但是,只要我将批处理增加到840,就会收到以下错误:

Traceback (most recent call last):
  File "train_cnn_rnn.py", line 152, in <module>
    loss.backward()
  File "/home/tbaumgae/.local/lib/python3.5/site-packages/torch/autograd/variable.py", line 146, in backward
    self._execution_engine.run_backward((self,), (gradient,), retain_variables)
RuntimeError: CUDNN_STATUS_NOT_SUPPORTED. This error may appear if you passed in a non-contiguous input.

前锋似乎运作良好。我检查所有变量是否是连续的,它们是。此外,我对损失计算的预测和目标是连续的,也是返回的损失。但是在调用backward()时会出现此错误。有什么想法会发生这种情况吗?

CUDA版本8.0.61

Python 3.5.2

评论摘要:

  • 一个序列中有210个图像,因此,我的批量大小为210步。每个图像的形状为[3, 250, 250]
  • 我正在向后使用PyTorch,我自己没有实现任何后向方法。

0 个答案:

没有答案