Question

我在Google Compute us-east-1c地区创建了一个虚拟机，其规格如下：n1-standard-2（2个vCPU，7.5 GB内存），1个NVIDIA Tesla K80 GPU，启动盘：深度学习映像Tensorflow 1.10.1立方米CUDA 9.2。

当我第一次登录计算机时，它要求我安装驱动程序，并且我同意。它给了我一些我没有保存的警告信息。

我试图用TF后端训练完全用Keras编写的模型。

但是，从速度和CPU利用率（两者都与笔记本电脑上的性能类似，速度慢并且几乎使用了所有可用的CPU）来看，没有使用GPU。

这也由TF输出确认：

2018-09-21 08：39：48.602158：我 tensorflow / core / platform / cpu_feature_guard.cc：141]您的CPU支持 TensorFlow二进制文件未编译使用的指令：AVX2 FMA

它没有提到任何GPU。（感谢@Matias Valdenegro！）

在我的模型中，我并不了解GPU，因为TF是自动照顾它的。

有什么想法吗？

非常感谢。

Answer 1

要检查GPU是否正在使用中，可以检查

的输出。

watch -n 0.5 nvidia-smi

在运行培训时，查看是否正在运行流程。

您还可以检查

的输出

import tensorflow as tf
tf.Session(config=tf.ConfigProto(log_device_placement=True))

并检查GPU使用情况。

Answer 2

问题出在我使用requirements.txt上。

我使用pip freeze在笔记本电脑上创建了该文件，并将其上传到VM，并使用pip安装了所有要求。

这样，我的requirements.txt包含了张量流。结果，pip安装了不包含GPU支持的存储库版本，用GPU支持替换了预装的tensorflow。

我可以通过重复执行步骤并检查每秒@Shintlor的建议（谢谢！）来弄清楚这一点。

我创建了另一个VM，但未使用requirements.txt；相反，我一个接一个地安装了所有丢失的软件包。之后，我的模型现在的训练速度比笔记本电脑快20倍。