我有一个数据集,其中包含不平衡的多类因变量。我想知道哪个是训练模型的正确顺序:
1)标准化过采样火车测试拆分
2)traintestsplit-Standardization-oversampling
3)traintestsplit-oversampling-standarding
答案 0 :(得分:0)
欢迎上车。
关于您的问题,更好的方法可能是:
preprocessing -> train test split -> normalizing -> over/undersampling
这必须是您的首要任务,其中包括从数据中清除错误以及合并散布在公司各处的所有类型的数据。
这是下一步要做的,原因有两点:
如果在拆分之前对数据集进行标准化,则可能会用测试数据信息污染模型训练(模型必须能够处理看不见的值)
测试数据必须是真实的数据,如果您对此应用任何类型的采样,则您正在改变这一现实。
在采样之前对数据进行规范化是一个好习惯,因为某些采样方法使用模型来生成新的数据点,并且接收规范化的数据将更好地生成采样。
最后,对数据进行采样,我建议您评估不同的采样方法和采样率,并比较结果。