我在tensorflow(在python中)中建立了一个神经网络,该网络在fer2013数据集上运行(可以在kaggle上找到)。我的网络架构是这样
emotion_model = Sequential()
emotion_model.add(Conv2D(32, kernel_size=(3, 3), activation='relu', input_shape=(48,48,1)))
emotion_model.add(Conv2D(64, kernel_size=(3, 3), activation='relu'))
emotion_model.add(MaxPooling2D(pool_size=(2, 2)))
emotion_model.add(Dropout(0.25))
emotion_model.add(Conv2D(128, kernel_size=(3, 3), activation='relu'))
emotion_model.add(MaxPooling2D(pool_size=(2, 2)))
emotion_model.add(Conv2D(128, kernel_size=(3, 3), activation='relu'))
emotion_model.add(MaxPooling2D(pool_size=(2, 2)))
emotion_model.add(Dropout(0.25))
emotion_model.add(Flatten())
emotion_model.add(Dense(1024, activation='relu'))
emotion_model.add(Dropout(0.5))
emotion_model.add(Dense(7, activation='softmax'))
emotion_model.compile(loss='categorical_crossentropy', optimizer=Adam(lr=0.0001, decay=1e-6), metrics=['accuracy'])
emotion_model_info = emotion_model.fit(
train_generator,
steps_per_epoch=28709 // 64,
epochs=50,
validation_data=validation_generator,
validation_steps=7178 // 64)
现在,我是机器学习的初学者,但是“测试”与“验证”数据准确性/成本之间的差异似乎表明数据过度拟合。但是,我在同一数据集上查看了其他人的准确性水平,发现大多数人在验证中获得大约62%的准确性(这是我目前所拥有的),而他们在训练准确性上通常也大致相同。因此,令我惊讶的是,我的训练数据表现出色(表明过拟合),而我的验证准确性却与其他实现相当。我的问题有两个方面。首先,我的实现是否存在任何问题,可能导致我的模型在训练中表现如此出色,但仅在val上平均(并且实际上没有任何改进的余地)?或者这仅仅是经典的过拟合?如果过拟合,我将对如何应对这一问题提供一些建议。我的数据集大部分是固定的(我想我可以根据需要尝试添加更多数据),尝试添加一些正则化功能会损害性能。基本上,我觉得我在这里遗漏了一些东西。我的培训准确性如此之高,使我感到非常怀疑,我想在这里检查一下,以确保在浪费时间纠正过度拟合之前,我没有丢失任何东西。任何帮助表示赞赏。
答案 0 :(得分:1)
您说得很对:这就是过度拟合的定义。
通常,我们还希望验证损失将在大约同一点达到相对最小值-这定义了收敛点。在这里,似乎该模型在训练中学习了很多东西,但在时代8附近的发散点之后,仍然有一些有用的学习。
接下来要考虑的项目是
答案 1 :(得分:0)
我对这个特定的数据集了解不多,但是一般来说,只要深度学习模型足够强大(具有足够的神经元)就可以收敛到最适合训练数据。
您始终可以在主图层之间使用滤除图层,这些图层是在输入图层的输入中随机滤除某些像素的图层。只要做:
emotion_model.add(tensorflow.keras.layers.Dropout(dropout_precentage))
您还可以尝试使用L1和/或L2范数,这只会将图层的权重加到最终损失中,这意味着模型无法为某个特征赋予较大的权重,从而减少了装扮。只需在包含权重的图层上添加kernel_regularizer参数即可,例如:
emotion_model.add(Conv2D(64, kernel_size=(3, 3), activation='relu',
kernel_regularizer = keras.regularizers.l1() ))