应用错误收集

首先，不，你不需要等于没有。您班级中的案例。并非所有数据集都是平衡的。是的，它可能会给出不切实际的答案。数据集中的不平衡是一种常见现象，但处理它的策略很少 - ：

1）重新采样数据集

欠采样 - 删除多数类的记录

过采样 - 在少数民族类中添加记录

您可以使用SMOTE算法为您完成。

2）效果指标

像Kappa（或Cohen的kappa）这样的一些指标可以很好地工作，其中分类精度通过数据中的类的不平衡来规范化。

3）成本敏感的分类器 Weka有一个CostSensitiveClassifier，可以包装任何分类器并应用自定义惩罚矩阵进行未命中分类。但这里面临的挑战是如何确定成本，因为成本应该依赖于域，而不是数据依赖。

希望它有所帮助。