我正在使用Weka(GUI)评估向数据集添加特定属性是否会改善二进制分类类型问题的结果。不幸的是,大约有50个YES分类事件和3000个NO。我正在使用SMOTE对少数群体数据进行过采样(YES),以便获得更平衡的数据集。我尝试了SMOTE过滤器的percent参数的各种值。最有效的是一个百分比值,该值在3000 YES左右进行合成,以便获得完美平衡的数据集。我真的很担心我在这里过拟合,并且我想确保解决这个问题。这正是我的工作:
我不太了解当我单击“分类”选项卡中的“开始”时会发生什么。它创建了模型,然后对它遗漏的10%的数据进行了验证,对吗?但是,由于YES如此稀疏,我怎么知道它在实际数据集上的效果如何?如果那是我需要做的,请明确我创建一个单独的测试数据集所需采取的步骤,因为我无法在weka GUI在线中找到如何做。感谢我们的weka新手。