应用错误收集

我正在使用Weka（GUI）评估向数据集添加特定属性是否会改善二进制分类类型问题的结果。不幸的是，大约有50个YES分类事件和3000个NO。我正在使用SMOTE对少数群体数据进行过采样（YES），以便获得更平衡的数据集。我尝试了SMOTE过滤器的percent参数的各种值。最有效的是一个百分比值，该值在3000 YES左右进行合成，以便获得完美平衡的数据集。我真的很担心我在这里过拟合，并且我想确保解决这个问题。这正是我的工作：

在“预处理”选项卡中，选择“ SMOTE”过滤器，并以与制作1：1比例数据集相对应的百分比应用它
我转到“分类”选项卡，然后单击以10折设置的交叉验证开始
它运行并打印混淆矩阵，给出令人难以置信的（令人难以置信的）大约0.988的平均分类结果

我不太了解当我单击“分类”选项卡中的“开始”时会发生什么。它创建了模型，然后对它遗漏的10％的数据进行了验证，对吗？但是，由于YES如此稀疏，我怎么知道它在实际数据集上的效果如何？如果那是我需要做的，请明确我创建一个单独的测试数据集所需采取的步骤，因为我无法在weka GUI在线中找到如何做。感谢我们的weka新手。

使用SMOTE防止在Weka中过拟合

0 个答案: