对于多类问题,数据是否应该针对机器学习算法(如随机森林和随机蕨类植物)进行平衡,或者它是否可以在一定程度上失衡?
答案 0 :(得分:2)
当不成比例改变类实例的可分性时,会出现不平衡类的问题。但这并不是在不平衡的数据集中发生的:有时你从一个类中获得的数据越多,你就能越好地区分稀疏数据,因为它可以让你更容易地找到哪些特征对创建一个有区别的平面有意义(即使你是不使用判别分析,重点是根据类别对实例进行分类。
例如,我可以记住KDDCup2004蛋白质分类任务,其中一个类具有99.1%的训练集实例,但如果您尝试使用抽样方法来缓解不平衡,则只会导致更糟糕的结果。这意味着来自第一类的大量数据定义了较小数据中的数据。
关于随机森林和一般的决策树,它们通过在每个步骤中选择可以将该组划分为两个(或更多)类有意义的子集的最有希望的特征来工作。具有关于一个类的固有更多数据不会默认偏差这种分区(=总是),但仅当不平衡不代表真实分布类时。
因此,我建议您首先进行多变量分析,以尝试获取数据集中类之间的不平衡程度,并运行一系列具有不同欠采样率的实验,如果您仍然存在疑问。
答案 1 :(得分:0)
我之前在任务中使用了Random Forrests。尽管数据不需要平衡,但是如果正样本太少,则数据的模式可能会淹没在噪声中。大多数分类方法甚至(随机forrests和ada boost)应该或多或少地存在这个缺陷。“过多样本”可能是处理这个问题的好主意。
也许论文Logistic Regression in rare对这类问题很有用,虽然它的主题是逻辑回归。