NVIDIA K-80 GPU不能与深度学习图像Tensorflow一起运行

时间:2018-09-21 09:24:52

标签: python tensorflow keras google-compute-engine

我在Google Compute us-east-1c地区创建了一个虚拟机,其规格如下:n1-standard-2(2个vCPU,7.5 GB内存),1个NVIDIA Tesla K80 GPU,启动盘:深度学习映像Tensorflow 1.10.1立方米CUDA 9.2。

当我第一次登录计算机时,它要求我安装驱动程序,并且我同意。它给了我一些我没有保存的警告信息。

我试图用TF后端训练完全用Keras编写的模型。

但是,从速度和CPU利用率(两者都与笔记本电脑上的性能类似,速度慢并且几乎使用了所有可用的CPU)来看,没有使用GPU。

这也由TF输出确认:

  

2018-09-21 08:39:48.602158:我   tensorflow / core / platform / cpu_feature_guard.cc:141]您的CPU支持   TensorFlow二进制文件未编译使用的指令:AVX2   FMA

它没有提到任何GPU。 (感谢@Matias Valdenegro!)

在我的模型中,我并不了解GPU,因为TF是自动照顾它的。

有什么想法吗?

非常感谢。

2 个答案:

答案 0 :(得分:2)

要检查GPU是否正在使用中,可以检查

的输出。
watch -n 0.5 nvidia-smi

在运行培训时,查看是否正在运行流程。

您还可以检查

的输出
import tensorflow as tf
tf.Session(config=tf.ConfigProto(log_device_placement=True))

并检查GPU使用情况。

答案 1 :(得分:0)

问题出在我使用requirements.txt上。

我使用pip freeze在笔记本电脑上创建了该文件,并将其上传到VM,并使用pip安装了所有要求。

这样,我的requirements.txt包含了张量流。结果,pip安装了不包含GPU支持的存储库版本,用GPU支持替换了预装的tensorflow。

我可以通过重复执行步骤并检查每秒@Shintlor的建议(谢谢!)来弄清楚这一点。

我创建了另一个VM,但未使用requirements.txt;相反,我一个接一个地安装了所有丢失的软件包。之后,我的模型现在的训练速度比笔记本电脑快20倍。

相关问题