如何基于现有的平衡数据集生成数据以在Python中进行二进制分类?

时间:2019-06-16 10:49:07

标签: machine-learning

我有一个包含10万行和100列的数据集,我想基于此现有数据集生成样本,以便使数据集的输出形状达到1000万行和100列? 知道如何在Python中执行此操作吗? 我不想过采样的方法,因为我的数据集已经平衡了。

1 个答案:

答案 0 :(得分:0)

您应该首先将数据拆分为训练和验证/测试,并对训练数据进行过采样,以免在这些数据集之间出现“流血”样本

查看以下内容: 从sklearn.model_selection导入train_test_split
从imblearn.over_sampling导入SMOTE

有关SMOTE的更多信息 https://imbalanced-learn.readthedocs.io/en/stable/generated/imblearn.over_sampling.SMOTE.html