我正在使用nvidia GTX1080 gpu(8GB)在tensorflow上运行Inception model,当我设置batch_size = 16和image_size = 400时,然后在我启动程序后,我的ubuntu14.04将自动重启。
答案 0 :(得分:4)
确保它不是电源设备问题。我在我的开发机器上观察到奇怪的偶尔重启。当我增加输入的大小(批量大小,更大的NN)时,重新启动的速度也在增加。原来是一个PSU问题。快速检查是限制GPU功耗,看看这种行为是否会消失。例如,您可以使用此命令将功率限制在150瓦左右(您需要sudo权限):
sudo nvidia-smi -pl 150
答案 1 :(得分:1)
如果PSU具有足够的功率(WATTS),则更改GPU电源设置将起作用。 我将GPU(TITANX)的功率限制在最大值。 200 WATTS使用,
sudo nvidia-smi -pl 200
注意:每个GPU都有功率限制,例如: TITANX的功率限制在125W到300W之间。所以一定要在这些限制之间给出价值。
答案 2 :(得分:0)
我将问题追踪到电源故障。它有足够的容量根据规范,并通过运行“nvidia-smi -pl 150”限制GPU功耗根本没有帮助。可能它无法处理功耗爆发 无论如何,在我将“Corsair CX750 Builder系列ATX 80 PLUS”的电源更换为“Cooler Master V1000”之后,问题就消失了。 在TensorFlow GitHub issue中查看我的调查详情。
答案 3 :(得分:0)
在DELL T3610上安装GTX 2070后,我遇到了完全相同的问题。上面谢尔盖(Sergey)提供的答案解决了我的问题。只需为Windows用户添加评论:
nvidia-smi -pl 150
然后应该解决您的问题,您会看到输出消息,GPU的功率极限已降低到150w。 (就我而言,从185w减少到150w)。
答案 4 :(得分:0)
我遇到了一个非常相似的问题,但是将其归结为一个PATH问题,其中插入了CUDA 11,并且以某种方式覆盖了我的CUDA 10.1库。我不确定何时/如何,但可能与我最近完成的Nvidia驱动程序升级有关。至少检查并确保您的PATH和版本正确。至少在Windows 10上,CUDA 11至少在11/2020上不能在Tensorflow 2.3.1或更低版本上使用。请让我知道是否有我不知道的解决方法,但这绝对是问题所在。当我将PATH固定为仅指向CUDA 10.1路径时,一切工作正常,并且能够在20分钟内使GPU最大化,而无需重新启动。