我正在从源代码编译当前的主版本。如果我使用CUDA 7.5和CUDNN 4.0进行编译,则会出现以下编译错误:
ERROR: /home/rob/tensorflow/tensorflow/contrib/rnn/BUILD:45:1: undeclared inclusion(s) in rule '//tensorflow/contrib/rnn:python/ops/_lstm_ops_gpu':
this rule is missing dependency declarations for the following files included by 'tensorflow/contrib/rnn/kernels/lstm_ops_gpu.cu.cc':
'/usr/local/cuda-7.5/include/cuda_runtime.h'
'/usr/local/cuda-7.5/include/host_config.h'
'/usr/local/cuda-7.5/include/builtin_types.h'
[etc...]
如果我使用CUDNN 5.1进行编译,那么所有内容都会编译并运行,但对于我目前正在运行的训练脚本,执行时间大约是使用通过pip安装的0.9.0版本的执行时间的3倍。
我也尝试了0.10.rc0(gpu)的点子版本,看到相同的3X减速版本0.9.0
我正在使用Ubuntu 14.04,py 3.4和Tesla K40c gpu。 Bazel是版本0.3.1
ver 0.10.0rc0 3X减速的原因是什么?有没有办法重新获得先前的表现?
其次,如何在使用CUDNN 4时消除构建错误?