Blas GEMM发布失败:这个错误是什么意思?

时间:2017-09-04 16:12:13

标签: tensorflow cublas

我在执行昨天运行良好的简单Tensorflow模型时遇到问题。我怀疑,问题完全与给​​出的错误相关

      Blas GEMM launch failed

在控制台中说,

  tensorflow/core/common_runtime/gpu/gpu_util.cc:343] CPU->GPU Memcpy failed

我的印象是,这可能与我基于此

的CUDA安装有关

TensorFlow: Blas GEMM launch failed

但是,我看不到如何运行simpleCUBLAS示例。我是CUDA的新手。

我有4个1080ti GPU(Ubuntu 16.04,TensorFlow 1.3.0),我还没有发现任何占用GPU内存的僵尸进程。任何帮助是极大的赞赏。

1 个答案:

答案 0 :(得分:2)

所以我在疯了几天后找到了答案。我第一次跑这个

我这样做了:

 cd /usr/local/cuda/samples/7_CUDALibraries/simpleCUBLAS
 make
 ./simpleCUBLAS

检查我的CUBLAS安装。它返回CUBLAS INITIALIZATION FAILED !!!

接下来我做了这个(基于建议)

 sudo rm -f ~/.nv

它有效。希望这可以拯救别人。看到它时看起来很简单。

另一件值得一提的是,这个问题偶尔也会引发这个错误:

    tensorflow/stream_executor/cuda/cuda_dnn.cc:385] could not create cudnn handle: CUDNN_STATUS_INTERNAL_ERROR
    tensorflow/stream_executor/cuda/cuda_dnn.cc:352] could not destroy cudnn handle: CUDNN_STATUS_BAD_PARAM
    tensorflow/core/kernels/conv_ops.cc:605] Check failed: stream->parent()->GetConvolveAlgorithms(&algorithms) 

这很神秘 - 每个人都认为这是一个内存问题,果然,在我的TF模型启动过程中,我的GPU被python所困扰。但正是CUBLAS错误导致我找到了解决方案。