不平衡分类:过采样与缩放功能的顺序?

时间:2018-01-21 17:10:30

标签: machine-learning classification logistic-regression

在使用不平衡数据集(例如,欺诈检测)执行分类(例如,逻辑回归)时,最好在对少数类进行过采样之前对特征进行缩放/标准化/标准化,或者在缩放之前平衡类特征?

其次,这些步骤的顺序是否影响最终如何解释特征(当使用所有数据时,缩放+平衡,以训练最终模型)?

以下是一个例子:

首先缩放:

  1. 将数据拆分为训练/测试折叠
  2. 使用所有训练(不平衡)数据计算平均值/标准值;使用这些计算来缩放训练数据
  3. 训练数据中的过多采样少数类(例如,使用SMOTE)
  4. 将逻辑回归模型拟合到训练数据
  5. 使用mean / std计算来缩放测试数据
  6. 使用不平衡的测试数据预测类;评估acc / recall / precision / auc
  7. 首先进行过采样

    1. 将数据拆分为训练/测试折叠
    2. 训练数据中的过多采样少数类(例如,使用SMOTE)
    3. 使用平衡训练数据计算平均值/标准值;使用这些计算来缩放训练数据
    4. 将逻辑回归模型拟合到训练数据
    5. 使用mean / std计算来缩放测试数据
    6. 使用不平衡的测试数据预测类;评估acc / recall / precision / auc

1 个答案:

答案 0 :(得分:-1)

你可能暗含了它,但是你需要应用mean / std来缩放训练数据,这需要在你适应模型之前发生。

除非这一点,否则没有明确的答案。最好的方法是简单地尝试两者,看看哪种方法最适合您的数据

为了您自己对结果数据的模型有所了解,您可能希望改为计算少数类和多数类的均值和标准差。如果他们有相似的统计数据,那么我们就不会期望先扩大规模或先取样过多。

如果平均值和标准偏差非常不同,结果可能会有很大差异。但这也可能意味着问题有更大的分离,您可能期望更高的分类准确性。