我们使用以下硬件配置来使用tensorflow运行多个GPU培训:
ubuntu 16.04
cuda 8
cudnn 5.1
8 titan X pascal
220GB of memory
训练代码基于tensorflow / models github repository中发布的slim。
如果我们不使用所有GPU(最多4个,已测试),我们可以运行培训代码。但是,一旦我们使用所有8个GPU,计算机就会崩溃。
这可能是什么原因?
答案 0 :(得分:0)
我有一个类似的问题,但对我来说,一旦我使用了多个GPU就崩溃了。对我们来说,修复是将Linux内核降级到2.6.32
有关我们问题的详细信息,请访问:https://groups.google.com/a/tensorflow.org/forum/#!topic/discuss/UjB7uP7_MMU