我有不平衡的记录类,数据如下:
X Y Z Class
1 4 Good A
3 5 Very Good A
7 6 Good A
8 7 Excellent A
4 8 Pass A
3 7 Good A
34 6 Good A
1 5 Very Good A
4 3 Excellent B
4 4 Excellent B
我想预测班级:
答案 0 :(得分:1)
我建议研究SMOTE(合成少数民族过采样技术)。此技术通过替换从训练数据集中的少数群实例中随机选择。然后将这些选定的实例作为重复项添加到训练数据集中,从而产生更平衡的类,从而防止分类器学习仅预测多数类。
根据您使用的软件或模块,以及您是否需要专门使用决策树,可能还有其他选项。例如,SVM(同样取决于所使用的软件或模块)通常伴随着指定类特定成本的能力。为了解决你所关心的问题,你可以简单地在少数民族阶级中指定更高的成本(即罚款)。
希望有所帮助!