cupy.cuda.cudnn.CuDNNError:CUDNN_STATUS_INTERNAL_ERROR

时间:2018-12-11 09:55:13

标签: ubuntu cudnn chainer cupy

我的cupy和chainer版本如下

  

Chainer:4.1.0 NumPy:1.15.4 CuPy:CuPy版本:4.1.0
  CUDA根目录:/usr/local/cuda-9.0 CUDA构建版本:   9000 CUDA驱动程序版本:9020 CUDA运行时版本:9000
  cuDNN内部版本:7104 cuDNN版本:7104 NCCL   内部版本:2104

我正在尝试在this link之后运行测试脚本,而我使用的脚本如下

  

python image_sheeping.py Figure_skating / models / resnet_50_augmentation_no_noise_75_100 / Resnet50SheepLo​​calizer_97305.npz \ log -i fig_skating / evaluation_dataset / test_images / 22.png -g 0 -ovalidation_data / images / analyzed

我收到的错误消息是

  

回溯(最近通话最近):     文件“ image_sheeping.py”,第50行,在       bboxes,分数= localizer.localize(processed_image)[:2]     在本地化文件“ /home/rahul/Desktop/Thesis/code/loans/loans/sheep/unsupervised_sheep_localizer.py”中,       bbox,rois,分数,visual_backprop = self.model.predict([processed_image],return_visual_backprop = return_visual_backprop)     预测中的文件“ /home/rahul/Desktop/Thesis/code/loans/loans/figure_skating/models/resnet_50_augmentation_no_noise_75_100/localizer.py”       rois,bboxes = self(images)     在呼叫中的文件“ /home/rahul/Desktop/Thesis/code/loans/loans/figure_skating/models/resnet_50_augmentation_no_noise_75_100/localizer.py”中,第144行       h = self.feature_extractor(input_images,layers = ['res5','pool5'])     在调用中的文件“ /home/rahul/.virtualenvs/loans/lib/python3.6/site-packages/chainer/links/model/vision/resnet.py”中,第198行       h =函数(h)     在调用中的文件“ /home/rahul/.virtualenvs/loans/lib/python3.6/site-packages/chainer/links/connection/convolution_2d.py”第175行       groups = self.groups)     文件“ /home/rahul/.virtualenvs/loans/lib/python3.6/site-packages/chainer/functions/connection/convolution_2d.py”,第582行,在convolution_2d中       y = fnode.apply(args)     在应用中,文件“ /home/rahul/.virtualenvs/loans/lib/python3.6/site-packages/chainer/function_node.py”       输出= self.forward(in_data)     文件367行向前“ /home/rahul/.virtualenvs/loans/lib/python3.6/site-packages/chainer/function_node.py”       返回self.forward_gpu(输入)     文件“ /home/rahul/.virtualenvs/loans/lib/python3.6/site-packages/chainer/functions/connection/convolution_2d.py”,第161行,位于forward_gpu中       返回self._forward_cudnn(x,W,b,y)     _forward_cudnn中的文件“ /home/rahul/.virtualenvs/loans/lib/python3.6/site-packages/chainer/functions/connection/convolution_2d.py”,第234行       auto_tune = auto_tune,tensor_core = tensor_core)     在cupy.cudnn.convolution_forward中,文件“ cupy / cudnn.pyx”,第598行     在cupy.cudnn.get_handle中的文件“ cupy / cudnn.pyx”,第33行     在cupy.cuda.cudnn.create中的文件“ cupy / cuda / cudnn.pyx”,第473行     在cupy.cuda.cudnn.check_status中的文件“ cupy / cuda / cudnn.pyx”,行446   cupy.cuda.cudnn.CuDNNError:CUDNN_STATUS_INTERNAL_ERROR   在以下值中忽略了异常:del为0%| | 0/1 [00:17   追溯(最近一次通话):      del 中的文件“ /home/rahul/.virtualenvs/loans/lib/python3.6/site-packages/tqdm/_tqdm.py”,第931行       self.close()     关闭文件“ /home/rahul/.virtualenvs/loans/lib/python3.6/site-packages/tqdm/_tqdm.py”,第1133行       self._decr_instances(self)     文件“ /home/rahul/.virtualenvs/loans/lib/python3.6/site-packages/tqdm/_tqdm.py”,行496,在_decr_instances中       cls.monitor.exit()     在出口的第52行,文件“ /home/rahul/.virtualenvs/loans/lib/python3.6/site-packages/tqdm/_monitor.py”       self.join()     连接中的文件“ /usr/lib/python3.6/threading.py”,第1053行       引发RuntimeError(“无法加入当前线程”)   RuntimeError:无法加入当前线程

有人可以帮助我解决错误吗?

1 个答案:

答案 0 :(得分:0)

您是否可以使用以下环境变量集重新运行代码?

export CUDNN_LOGDEST_DBG=cudnn_debug.log
export CUDNN_LOGINFO_DBG=1

然后请共享cudnn_debug.log文件(例如,使用Gist)。