我遇到了this question中讨论过的GTX 1080卡和nvidia-docker的“第一次运行缓慢”问题。
我正在使用its official pip package的TensorFlow版本和基于nvidia-docker的Ubuntu 16.04基本图像的自定义docker镜像。
如何让TensorFlow以编程方式在Dockerfile中加载(并构建JIT缓存)所有已注册的CUDA内核? (而不是使用TF_CUDA_COMPUTE_CAPABILITIES
环境变量手动构建TensorFlow)
答案 0 :(得分:1)
似乎没有简单的方法来实现这一点,因为CUDA运行时隐式地,懒惰地从给定的内核源as discussed here编译缺少的cubin。
通过自己重建TensorFlow解决了这个问题,使用一些帮助程序脚本来检测当前的CUDA / GPU配置并生成所需的TensorFlow配置参数(detect-cuda.py,build-tensorflow.sh)。