标签: python decision-tree gridsearchcv imbalanced-data oversampling
我是机器学习和 Python 方面的新手。 我有一个不平衡的数据集 --> {0: 97% ; 1:3%} 我想应用过采样方法,然后实现随机搜索来调整决策树的超参数。我想知道我是否应该在将数据集拆分为训练集和测试集之前对少数类进行过采样,或者在对训练集中的少数类进行过采样之后将数据拆分并在过采样的训练测试中应用 RandomSearchCV。
谢谢!