有没有一种比random.sample()更有效的数据过采样方法?

时间:2019-10-10 18:59:53

标签: random classification oversampling imbalanced-data

我遇到了一个很大的不平衡分类问题,并希望通过对次要类进行过度采样来解决此问题。 (N(1级)= 8,5mio,N(n级)= 3000)

为此,我想通过以下方式为n个类分别获取100.000个样本

data_oversampled = []
for data_class_filtered in data:
    data_oversampled.append(data_class_filtered.sample(n=20000, replace=True))

其中data是特定于类的DataFrame的列表,而len(data)=10data.shape=(9448788,97)

这可以按预期工作,但不幸的是要花掉永远。有没有更有效的方法来做同样的事情?

0 个答案:

没有答案
相关问题