我在执行昨天运行良好的简单Tensorflow模型时遇到问题。我怀疑,问题完全与给出的错误相关
Blas GEMM launch failed
在控制台中说,
tensorflow/core/common_runtime/gpu/gpu_util.cc:343] CPU->GPU Memcpy failed
我的印象是,这可能与我基于此
的CUDA安装有关TensorFlow: Blas GEMM launch failed
但是,我看不到如何运行simpleCUBLAS示例。我是CUDA的新手。
我有4个1080ti GPU(Ubuntu 16.04,TensorFlow 1.3.0),我还没有发现任何占用GPU内存的僵尸进程。任何帮助是极大的赞赏。
答案 0 :(得分:2)
所以我在疯了几天后找到了答案。我第一次跑这个
我这样做了:
cd /usr/local/cuda/samples/7_CUDALibraries/simpleCUBLAS
make
./simpleCUBLAS
检查我的CUBLAS安装。它返回CUBLAS INITIALIZATION FAILED !!!
接下来我做了这个(基于建议)
sudo rm -f ~/.nv
它有效。希望这可以拯救别人。看到它时看起来很简单。
另一件值得一提的是,这个问题偶尔也会引发这个错误:
tensorflow/stream_executor/cuda/cuda_dnn.cc:385] could not create cudnn handle: CUDNN_STATUS_INTERNAL_ERROR
tensorflow/stream_executor/cuda/cuda_dnn.cc:352] could not destroy cudnn handle: CUDNN_STATUS_BAD_PARAM
tensorflow/core/kernels/conv_ops.cc:605] Check failed: stream->parent()->GetConvolveAlgorithms(&algorithms)
这很神秘 - 每个人都认为这是一个内存问题,果然,在我的TF模型启动过程中,我的GPU被python所困扰。但正是CUBLAS错误导致我找到了解决方案。