我正在使用Keras和Python训练用于两个类分类的MLP顺序模型。我的训练数据具有247个功能,并且我有17个第1类样本,922个第2类样本。我使用Smote Borderline Oversampling Algorithm来平衡数据集。我使用交叉验证(k = 4)来验证精度和召回率。对于每次折叠的训练,我都将损失曲线绘制在训练和验证之上,以估计模型拟合不足还是过度拟合。
我训练了一个具有3个隐藏层的模型,并达到95%的精度和71%的召回率。每一折的损失函数图似乎并不过分拟合。 (stackoverflow不允许我发布图像)。 但是,与使用训练精度和召回力较差的模型相比,此模型的评估更差。
这是过度拟合吗?以及如何在评估之前检测到它?
谢谢!
答案 0 :(得分:0)
您不能仅从学习曲线中检测到过度拟合。过度拟合的定义是您的模型在训练集上表现出色而在评估集上表现不佳,这正是您所报告的。 在这种情况下,我怀疑主要问题是数据集不平衡。您可以验证两个类在每个集合中的分布情况(训练,验证折叠和测试集),并查看模型在少数类上的表现。