不平衡类的随机抽样

时间:2019-02-25 08:57:32

标签: machine-learning classification

我有一个大型数据集,其中包含大约900万条记录。 我的目标变量包含布尔值,分别为0和1。

1 = Affected record
0 = Normal records

问题是我的完整数据集只包含1904条记录作为受影响的帐户。

进行随机抽样(获取至少100000条记录以训练模型)的最佳方法是什么,以避免偏倚和使我的模型过度适应多数阶级。

SMOTE将是一个不错的选择吗?

1 个答案:

答案 0 :(得分:0)

您可以使用异常检测模型。首先,训练所需的数据集数量(例如0.1 Mn),然后计算数据的均值和方差。然后,您可以使用验证集(标记为数据)找到某个阈值。然后,您可以通过查看该值的概率来确定样本是否为异常。

p(x)异常 p(x)> epsilon(threshold)--->没有异常