我目前正在努力应对一个非常不平衡的数据集,其中包含9个类,最大和最小代表类之间的比例为12:1。应用weka的SMOTE过滤器,直到所有类别均等表示,大大提高了分类结果,从总分类准确率86%到分类准确度95%。在应用SMOTE过滤器之前,单个类别的准确度(真阳性)也得到了普遍改善,在应用SMOTE过滤器之后,它们在40%-99%之间,在94%-99%之间。因此,随着施加SMOTE滤波器的次数,精度一直在增加。
这些“新”结果有多可靠?这可能更适合过度拟合吗?
答案 0 :(得分:0)
我只想对我的结果进行提醒,以防其他人在同一问题上遇到麻烦。不幸的是,似乎精确度的改善很可能来自过度拟合。 我通过使用训练测试设置而不是交叉验证来得出这个结论:我将我的数据随机化,将其分成85%训练数据和15%测试数据两部分。然后我在训练数据上应用了SMOTE滤波器,直到所有类都被平等地表示。然后,该上采样数据训练分类模型(END-实施),并且测试数据用于分类。因此,使用该设置和SMOTE的分类结果非常接近没有SMOTE的分类结果,总共约86%。因此,准确度的提高似乎来自于交叉验证设置中的测试数据也被放大,从而导致过度拟合。
有人对此有更多了解吗?还是有人想挑战这些发现?