数据挖掘和不平衡类

时间:2015-04-09 19:39:30

标签: statistics classification cluster-analysis data-mining decision-tree

我有不平衡的记录类,数据如下:

X   Y   Z            Class
1   4   Good           A
3   5   Very Good      A
7   6   Good           A
8   7   Excellent      A
4   8   Pass           A
3   7   Good           A
34  6   Good           A
1   5   Very Good      A
4   3   Excellent      B
4   4   Excellent      B

我想预测班级:

  1. 什么是最好的数据挖掘技术?
  2. 我使用了决策树,但不幸的是我遇到了记录不平衡的问题而且我无法对数据进行分类

1 个答案:

答案 0 :(得分:1)

我建议研究SMOTE(合成少数民族过采样技术)。此技术通过替换从训练数据集中的少数群实例中随机选择。然后将这些选定的实例作为重复项添加到训练数据集中,从而产生更平衡的类,从而防止分类器学习仅预测多数类。

根据您使用的软件或模块,以及您是否需要专门使用决策树,可能还有其他选项。例如,SVM(同样取决于所使用的软件或模块)通常伴随着指定类特定成本的能力。为了解决你所关心的问题,你可以简单地在少数民族阶级中指定更高的成本(即罚款)。

希望有所帮助!