应用错误收集

WEKA的SMOTE过滤器 - 如何解释结果

时间：2016-10-01 22:43:42

标签： machine-learning weka

我目前正在努力应对一个非常不平衡的数据集，其中包含9个类，最大和最小代表类之间的比例为12：1。应用weka的SMOTE过滤器，直到所有类别均等表示，大大提高了分类结果，从总分类准确率86％到分类准确度95％。在应用SMOTE过滤器之前，单个类别的准确度（真阳性）也得到了普遍改善，在应用SMOTE过滤器之后，它们在40％-99％之间，在94％-99％之间。因此，随着施加SMOTE滤波器的次数，精度一直在增加。

这些“新”结果有多可靠？这可能更适合过度拟合吗？

1 个答案:

答案 0 :(得分：0)

我只想对我的结果进行提醒，以防其他人在同一问题上遇到麻烦。不幸的是，似乎精确度的改善很可能来自过度拟合。我通过使用训练测试设置而不是交叉验证来得出这个结论：我将我的数据随机化，将其分成85％训练数据和15％测试数据两部分。然后我在训练数据上应用了SMOTE滤波器，直到所有类都被平等地表示。然后，该上采样数据训练分类模型（END-实施），并且测试数据用于分类。因此，使用该设置和SMOTE的分类结果非常接近没有SMOTE的分类结果，总共约86％。因此，准确度的提高似乎来自于交叉验证设置中的测试数据也被放大，从而导致过度拟合。

有人对此有更多了解吗？还是有人想挑战这些发现？