我有一个大型数据集,其中包含大约900万条记录。 我的目标变量包含布尔值,分别为0和1。
1 = Affected record
0 = Normal records
问题是我的完整数据集只包含1904条记录作为受影响的帐户。
进行随机抽样(获取至少100000条记录以训练模型)的最佳方法是什么,以避免偏倚和使我的模型过度适应多数阶级。
SMOTE将是一个不错的选择吗?
答案 0 :(得分:0)
您可以使用异常检测模型。首先,训练所需的数据集数量(例如0.1 Mn),然后计算数据的均值和方差。然后,您可以使用验证集(标记为数据)找到某个阈值。然后,您可以通过查看该值的概率来确定样本是否为异常。
p(x)