在高度不平衡的数据集中使用的负样本数量的影响(XGBoost)

时间:2019-03-05 06:49:34

标签: machine-learning xgboost

我正在尝试在高度不平衡的数据集上使用XGBoost为分类器建模,其中正样本数量有限,而负样本数量实际上是无限的。 负样本过多(使数据集更加不平衡)是否有可能削弱模型的预测能力?除了运行时间外,是否有理由限制阴性样本的数量?

我知道应该解决此问题的scale_pos_weight参数,但是我的直觉表明即使该方法也有其局限性。

1 个答案:

答案 0 :(得分:2)

直接回答您的问题:添加更多否定示例可能会降低训练有素的分类器的决策能力。对于否定类,请选择最具代表性的示例,然后将其余示例丢弃。

从不平衡的数据集中学习可能会影响预测能力,甚至会影响分类器的收敛能力。通常推荐的策略是在每个课程中都保持相似大小的培训示例。班级不平衡对学习的影响取决于决策空间的形状和班级之间边界的宽度。它们越宽,决策空间越简单,即使对于不平衡的数据集,训练也更成功。

TL; DR

对于不平衡学习方法的快速概述,我推荐这两篇文章:

有一个名为imbalanced-learn的Python程序包,其中包含大量的算法文档,我建议进行深入研究。