在使用不平衡数据集(例如,欺诈检测)执行分类(例如,逻辑回归)时,最好在对少数类进行过采样之前对特征进行缩放/标准化/标准化,或者在缩放之前平衡类特征?
其次,这些步骤的顺序是否影响最终如何解释特征(当使用所有数据时,缩放+平衡,以训练最终模型)?
以下是一个例子:
首先缩放:
首先进行过采样
答案 0 :(得分:-1)
你可能暗含了它,但是你需要应用mean / std来缩放训练数据,这需要在你适应模型之前发生。
除非这一点,否则没有明确的答案。最好的方法是简单地尝试两者,看看哪种方法最适合您的数据 。
为了您自己对结果数据的模型有所了解,您可能希望改为计算少数类和多数类的均值和标准差。如果他们有相似的统计数据,那么我们就不会期望先扩大规模或先取样过多。
如果平均值和标准偏差非常不同,结果可能会有很大差异。但这也可能意味着问题有更大的分离,您可能期望更高的分类准确性。