好的,这太奇怪了,我已经尝试了很多。我正在为图像分类问题开发CNN管道。
我正在使用使用python 3.7,keras-gpu和tensorflow-gpu的conda环境。
我有1000-1920分辨率的图片(本来是1080-1920,但是顶部的80像素被裁剪了,因为它们显示了时间,并且网络将其用于过度拟合)。
通常我的代码很简单。我有一个训练和验证集,对训练集进行了一些扩充,并使用keras.fit_generator将它们都作为模型的生成器。
我的模型为我的图片提供了一个平坦的输入层,使用了经过预训练的模型进行转移学习,并具有注意力图,并在其上构建了2个密集层。
我的回调是ModelCheckpoint,EarlyStopping,ReduceLearningRate和Tensorboard。
该模型在使用GTX1080Ti的Windows 10计算机上表现非常好,那里已经出现了一些OOM问题。然后,我最终将自己的团队限制在迁移到Ubuntu上,从而极大地提高了速度。
但是,现在代码不断在同一台PC上获取GPU-OOM,甚至在另一台具有RTX2080Ti的PC上也是如此。这真是太奇怪了。
我曾尝试减小模型和批量大小,但最终还是失败了。尽管它不是恒定的,但即使我使用1的批处理大小并将图片压缩到100 * 200之类,它平均也要花费更长的时间。
我将que-size设置为0,将multi-processing设置为false并转为工作人员。我为会话内存管理设置了以下代码。
gpu_options = tf.GPUOptions(per_process_gpu_memory_fraction=0.9)
config = tf.ConfigProto(gpu_options=gpu_options)
config.gpu_options.allow_growth = True
sess = tf.Session(config=config)
set_session(sess)
奇怪的是,它总是最终会耗尽gpu内存,而我不知道该怎么办了。使用小的训练数据,有时可以训练60个纪元,然后突然失败,而如果训练数据较大,则平均减少。
但是它总是失败,并且您永远找不到。因为它完成了时代,所以我不认为这是因为批量大小太大或网络太大。
它也永远不会同时发生,它可能是在某个中间时期,尽管经过了多个时期,但它最常发生,但不是排他地。
错误消息也不总是相同的,它通常表示CUDA_ERROR无法分配张量,但有时也表示CUDA_OS错误,操作系统不支持该调用。我在这里制作了一张崩溃的图像:
Error Message after Computer froze
编辑: 既然有人问,这是使用inceptionv3的一个示例图定义:
input_1(InputLayer)(无,1080、1920、3 0
inception_v3(模型)(无,32、58、2048)21802784 input_1 [0] [0]
batch_normalization_95(BatchNo(None,32,58,2048)8192 inception_v3 1 [0]
dropout_1(Dropout)(None,32,58,2048)0 batch_normalization_95 [0] [0]
conv2d_95(Conv2D)(无,32、58、64)131136 dropout_1 [0] [0]
conv2d_96(Conv2D)(无,32、58、16)1040 conv2d_95 [0] [0]
conv2d_97(Conv2D)(无,32、58、8)136 conv2d_96 [0] [0]
conv2d_98(Conv2D)(无,32、58、1)9 conv2d_97 [0] [0]
conv2d_99(Conv2D)(无,32、58、2048)2048 conv2d_98 [0] [0]
multiply_1(相乘)(无,32、58、2048)0 conv2d_99 [0] [0]
batch_normalization_95 [0] [0]
global_average_pooling2d_1(Glo(无,2048)0乘法_1 [0] [0]
global_average_pooling2d_2(Glo(无,2048)0 conv2d_99 [0] [0]
RescaleGAP(Lambda)(无,2048)0 global_average_pooling2d_1 [0] [0] global_average_pooling2d_2 [0] [0]
dropout_2(退出)(无,2048)0 RescaleGAP [0] [0]
dense_1(密集)(无,128)262272 dropout_2 [0] [0]
dropout_3(Dropout)(无,128)0 density_1 [0] [0]
总参数:22,207,875 可训练的参数:398,947 不可训练的参数:21,808,928