多GPU上的训练张量流使计算机崩溃

时间:2016-12-15 05:44:28

标签: tensorflow

我们使用以下硬件配置来使用tensorflow运行多个GPU培训:

ubuntu 16.04
cuda 8
cudnn 5.1
8 titan X pascal
220GB of memory

训练代码基于tensorflow / models github repository中发布的slim。

如果我们不使用所有GPU(最多4个,已测试),我们可以运行培训代码。但是,一旦我们使用所有8个GPU,计算机就会崩溃。

这可能是什么原因?

1 个答案:

答案 0 :(得分:0)

我有一个类似的问题,但对我来说,一旦我使用了多个GPU就崩溃了。对我们来说,修复是将Linux内核降级到2.6.32

有关我们问题的详细信息,请访问:https://groups.google.com/a/tensorflow.org/forum/#!topic/discuss/UjB7uP7_MMU