Question

我有一个大型数据集，其中包含大约900万条记录。我的目标变量包含布尔值，分别为0和1。

1 = Affected record
0 = Normal records

问题是我的完整数据集只包含1904条记录作为受影响的帐户。

进行随机抽样（获取至少100000条记录以训练模型）的最佳方法是什么，以避免偏倚和使我的模型过度适应多数阶级。

SMOTE将是一个不错的选择吗？

Answer 1

您可以使用异常检测模型。首先，训练所需的数据集数量（例如0.1 Mn），然后计算数据的均值和方差。然后，您可以使用验证集（标记为数据）找到某个阈值。然后，您可以通过查看该值的概率来确定样本是否为异常。

p（x）异常 p（x）> epsilon（threshold）--->没有异常