Question

我们使用以下硬件配置来使用tensorflow运行多个GPU培训：

ubuntu 16.04
cuda 8
cudnn 5.1
8 titan X pascal
220GB of memory

训练代码基于tensorflow / models github repository中发布的slim。

如果我们不使用所有GPU（最多4个，已测试），我们可以运行培训代码。但是，一旦我们使用所有8个GPU，计算机就会崩溃。

这可能是什么原因？

Answer 1

我有一个类似的问题，但对我来说，一旦我使用了多个GPU就崩溃了。对我们来说，修复是将Linux内核降级到2.6.32