我遇到了一个很大的不平衡分类问题,并希望通过对次要类进行过度采样来解决此问题。 (N(1级)= 8,5mio,N(n级)= 3000)
为此,我想通过以下方式为n个类分别获取100.000个样本
data_oversampled = []
for data_class_filtered in data:
data_oversampled.append(data_class_filtered.sample(n=20000, replace=True))
其中data
是特定于类的DataFrame的列表,而len(data)=10
,data.shape=(9448788,97)
这可以按预期工作,但不幸的是要花掉永远。有没有更有效的方法来做同样的事情?