作为研究项目的一部分,我尝试训练一个神经网络,该网络对图像进行分割(基于FCN),并且在执行过程中收到以下错误消息:
tensorflow.python.framework.errors_impl.ResourceExhaustedError:分配带有shape [1,67,1066,718]的张量并在/ job:localhost / replica:0 / task:0 / device:GPU:0上键入float时,OOM通过分配器GPU_0_bfc
请注意,我已将batch_size固定为1,即使尝试不同的图像大小,我也有相同的错误,我也只训练了1张图像,而不是1600错误。 你能帮我解决这个问题吗?到底是什么?
答案 0 :(得分:1)
欢迎使用Stackoverflow。
您应该检查GPU和可用内存。
这不是张量流的问题。但是您的图形卡太小了。
您可能必须使用内存要求较低的网络或较大的图形卡。这不仅关系到您所放图片的大小,而且所有权重也都需要存储在GPU上。
如果您需要使用此特定网络,并且不想购买另一台PC,则可以使用CloudService(例如AWS或GoogleCloudPlatform)。
要检查GPU状态,可以使用nvidia-smi