应用错误收集

如何基于现有的平衡数据集生成数据以在Python中进行二进制分类？

时间：2019-06-16 10:49:07

标签： machine-learning

我有一个包含10万行和100列的数据集，我想基于此现有数据集生成样本，以便使数据集的输出形状达到1000万行和100列？知道如何在Python中执行此操作吗？我不想过采样的方法，因为我的数据集已经平衡了。

1 个答案:

答案 0 :(得分：0)

您应该首先将数据拆分为训练和验证/测试，并对训练数据进行过采样，以免在这些数据集之间出现“流血”样本

查看以下内容：从sklearn.model_selection导入train_test_split
从imblearn.over_sampling导入SMOTE

有关SMOTE的更多信息 https://imbalanced-learn.readthedocs.io/en/stable/generated/imblearn.over_sampling.SMOTE.html