Tensorflow GPU错误:训练模型的过程中资源耗尽

时间:2018-07-13 12:10:47

标签: python tensorflow

我正在尝试在具有可用于训练的12GB内存的K80 GPU上训练模型(研究论文的实现)。数据集约为23 GB,提取数据后,训练脚本的数据集将缩小为12 GB。

大约在第4640步(max_steps为500,000),我收到以下错误消息,指出资源已用尽,此后脚本立即停止。 -Resource Exhausted Error

脚本开头的内存使用情况是: enter image description here

我经历了很多类似的问题,发现减小批处理大小可能会有所帮助,但我将批处理大小减小到50,并且错误仍然存​​在。除了切换到功能更强大的GPU之外,还有其他解决方案吗?

1 个答案:

答案 0 :(得分:1)

这看起来不像是GPU内存不足(OOM)错误,而是更像是您用尽了本地驱动器上的空间来保存模型的检查点。

您确定磁盘上有足够的空间还是保存到的文件夹没有引号?