使用SMOTE防止在Weka中过拟合

时间:2018-11-02 04:26:14

标签: classification weka oversampling

我正在使用Weka(GUI)评估向数据集添加特定属性是否会改善二进制分类类型问题的结果。不幸的是,大约有50个YES分类事件和3000个NO。我正在使用SMOTE对少数群体数据进行过采样(YES),以便获得更平衡的数据集。我尝试了SMOTE过滤器的percent参数的各种值。最有效的是一个百分比值,该值在3000 YES左右进行合成,以便获得完美平衡的数据集。我真的很担心我在这里过拟合,并且我想确保解决这个问题。这正是我的工作:

  • 在“预处理”选项卡中,选择“ SMOTE”过滤器,并以与制作1:1比例数据集相对应的百分比应用它
  • 我转到“分类”选项卡,然后单击以10折设置的交叉验证开始
  • 它运行并打印混淆矩阵,给出令人难以置信的(令人难以置信的)大约0.988的平均分类结果

我不太了解当我单击“分类”选项卡中的“开始”时会发生什么。它创建了模型,然后对它遗漏的10%的数据进行了验证,对吗?但是,由于YES如此稀疏,我怎么知道它在实际数据集上的效果如何?如果那是我需要做的,请明确我创建一个单独的测试数据集所需采取的步骤,因为我无法在weka GUI在线中找到如何做。感谢我们的weka新手。

0 个答案:

没有答案