我正在尝试在具有可用于训练的12GB内存的K80 GPU上训练模型(研究论文的实现)。数据集约为23 GB,提取数据后,训练脚本的数据集将缩小为12 GB。
大约在第4640步(max_steps为500,000),我收到以下错误消息,指出资源已用尽,此后脚本立即停止。 -
我经历了很多类似的问题,发现减小批处理大小可能会有所帮助,但我将批处理大小减小到50,并且错误仍然存在。除了切换到功能更强大的GPU之外,还有其他解决方案吗?
答案 0 :(得分:1)
这看起来不像是GPU内存不足(OOM)错误,而是更像是您用尽了本地驱动器上的空间来保存模型的检查点。
您确定磁盘上有足够的空间还是保存到的文件夹没有引号?