计算机在多个GPU上使用tensorflow进行训练时崩溃

时间:2017-03-24 18:53:30

标签: ubuntu cuda tensorflow

我的服务器崩溃并在使用多个GPU进行tensorflow训练时自动重启。

我的任务就像:

CUDA_VISIBLE_DEVICES=0 python train.py [LSTM training]
CUDA_VISIBLE_DEVICES=1 python train.py [Another LSTM training]

当任务都在运行时,服务器崩溃并自动重新启动。我尝试使用不同的服务器,但所有服务器的行为都相同。

我的硬件配置:

Dell T7610服务器
2 * E5-2609 CPU
1 * Nvidia GTX 1080(Inno 3D基础版)
1 * Nvidia GTX 1080Ti(技嘉基础版)
64G内存

我的软件配置:

Ubuntu 14.04 LTS(Linux 3.13.0-87-generic)
Nvidia驱动程序版本378.13(来自ppa:graphics-drivers的nvidia-378)
CUDA 8.0(CuDNN 5.1.5)
Python 2.7.13 | Anaconda 4.3.0(64位)
tensorflow-gpu-1.0.1(来自pip install)

PSU具有足够的显卡容量。从memtest结果来看,这不是与记忆相关的问题。没有任何syslogkern.log日志有助于找到问题。

我知道a similar question。但是,降级Linux内核的解决方法是不可接受的,因为我与实验室人员共享这些机器。

2 个答案:

答案 0 :(得分:1)

现在我已经解决了这个问题。我决定回答我自己的问题。

这是一个电力问题。当GPU汲取的功率超过PSU所能提供的功率时,计算机将重新启动。尽管PSU具有足够的容量,但18A PCIe电缆的功率限制为217W。

我的解决方法是使用两根PCIe电源线为GTX1080供电,配备双6针至8针连接器。

答案 1 :(得分:-1)

也许还有驱动程序问题。 你可以在运行'nvidia-smi'时显示正确的GPU设备名吗?

相关问题