如何在机器学习中建模不平衡数据?

时间:2017-11-20 21:52:34

标签: machine-learning weka supervised-learning

我使用的数据集具有高度不平衡的数据(Y = 5%和N = 95%),数据集有3000条唯一记录。要选择我使用过信息的功能。然后应用随机森林,百分比为66。 正确分类的实例96.1698% 错误分类的实例3.8302%

===混淆矩阵===

a ----- b< - 归类为

901 11 | a = N

26 28 | b = Y

此外,我尝试过SMOTE过滤器,但这并没有改变任何东西(获得非常相似的结果。)我将SMOTE过滤器应用到N和Y的实例几乎相等的程度。

数据是否有可能过度拟合?有没有比这更好的方法?

2 个答案:

答案 0 :(得分:1)

根据我的谦逊经验,可以在数据级别和算法级别处理不平衡数据。在SMOTE中发生的事情是算法试图通过复制或过度采样少数类数据来重新平衡数据,我认为应该谨慎使用,因为有可能过度拟合。您是否通过此链接https://www3.nd.edu/~nchawla/papers/DMKD11.pdf

尝试了Hellinger距离决策树(HDDT)

答案 1 :(得分:0)

分类率在不平衡数据下没有意义,也许灵敏度或特异性是更好的指标。除此之外,信息增益将受到很大影响,因为与Hellinger距离相比,它使用了类计数,而Hellinger距离对于偏斜数据更为鲁棒。希望我的拙见能有所帮助。