如何以编程方式为TensorFlow中的所有可用内核构建CUDA JIT缓存?

时间:2016-11-09 09:45:32

标签: cuda tensorflow nvidia

我遇到了this question中讨论过的GTX 1080卡和nvidia-docker的“第一次运行缓慢”问题。

我正在使用its official pip package的TensorFlow版本和基于nvidia-docker的Ubuntu 16.04基本图像的自定义docker镜像。

如何让TensorFlow以编程方式在Dockerfile中加载(并构建JIT缓存)所有已注册的CUDA内核? (而不是使用TF_CUDA_COMPUTE_CAPABILITIES环境变量手动构建TensorFlow)

1 个答案:

答案 0 :(得分:1)

似乎没有简单的方法来实现这一点,因为CUDA运行时隐式地,懒惰地从给定的内核源as discussed here编译缺少的cubin。

通过自己重建TensorFlow解决了这个问题,使用一些帮助程序脚本来检测当前的CUDA / GPU配置并生成所需的TensorFlow配置参数(detect-cuda.pybuild-tensorflow.sh)。