Question

我的验证损失在前 50 个时期以良好的速度下降，但在那之后的 10 个时期内，验证损失停止下降。我正在使用 mobilenet 并冻结图层并添加我的自定义头部。我的自定义头像如下：

def addTopModelMobileNet(bottom_model, num_classes):

top_model = bottom_model.output
top_model = GlobalAveragePooling2D()(top_model)
top_model = Dense(64,activation = 'relu')(top_model)
top_model = Dropout(0.25)(top_model)
top_model = Dense(32, activation = 'relu')(top_model)
top_model = Dropout(0.10)(top_model)
top_model = Dense(num_classes, activation = 'softmax')(top_model)

return top_model

我使用 alpha 0.25，学习率 0.001，衰减学习率 / epoch，nesterov 动量 0.8。我也在使用earlystoping回调，耐心等待10个时期。

Answer 1

每次训练深度神经网络时，我几乎肯定会遇到这种情况：

您可以摆弄参数，使其对权重的敏感度降低，即它们不会改变已经“接近最佳”的权重。其中一些参数可能包括优化器的 alpha，请尝试逐渐减少它。动量也会影响权重的变化方式。
您甚至可以逐渐减少辍学人数。

Answer 2

这种现象称为过拟合。在大约 70 个 epoch 时，它以明显的方式过度拟合。

这背后有几个原因。

数据：请先分析您的数据。平衡不平衡的数据。如果数据的变化很差，则使用增强。
层调整：尝试更多地调整 dropout 超参数。我建议您也尝试添加 BatchNorm 层。
最后，尝试将学习率降低到 0.0001 并增加总迭代次数。此时不要使用 EarlyStopping。看看训练记录。有时由于一些奇怪的局部最小值而无法达到全局最小值。

经过一些 epoch 迁移学习后，验证损失上升

2 个答案: