我有一个包含10万行和100列的数据集,我想基于此现有数据集生成样本,以便使数据集的输出形状达到1000万行和100列? 知道如何在Python中执行此操作吗? 我不想过采样的方法,因为我的数据集已经平衡了。
答案 0 :(得分:0)
您应该首先将数据拆分为训练和验证/测试,并对训练数据进行过采样,以免在这些数据集之间出现“流血”样本
查看以下内容:
从sklearn.model_selection导入train_test_split
从imblearn.over_sampling导入SMOTE
有关SMOTE的更多信息 https://imbalanced-learn.readthedocs.io/en/stable/generated/imblearn.over_sampling.SMOTE.html