应用错误收集

Tensorflow GPU错误：训练模型的过程中资源耗尽

时间：2018-07-13 12:10:47

标签： python tensorflow

我正在尝试在具有可用于训练的12GB内存的K80 GPU上训练模型（研究论文的实现）。数据集约为23 GB，提取数据后，训练脚本的数据集将缩小为12 GB。

大约在第4640步（max_steps为500,000），我收到以下错误消息，指出资源已用尽，此后脚本立即停止。 -

脚本开头的内存使用情况是：

我经历了很多类似的问题，发现减小批处理大小可能会有所帮助，但我将批处理大小减小到50，并且错误仍然存在。除了切换到功能更强大的GPU之外，还有其他解决方案吗？

1 个答案:

答案 0 :(得分：1)

这看起来不像是GPU内存不足（OOM）错误，而是更像是您用尽了本地驱动器上的空间来保存模型的检查点。

您确定磁盘上有足够的空间还是保存到的文件夹没有引号？