我正在使用“ imblearn”库进行欠采样。我的数据集中有四个类,每个类有20、30、40和50个样本数据(这是一个不平衡类)。选择这些样本号可以很容易地描述问题,但实际上并不是有效的数量。
我想对每个具有10个样本数据的类进行欠采样。我可以使用“ imblearn”来做到这一点吗?
目前,我正在使用以下代码将每个类的采样率降低到我的少数族裔拥有的数量(20个样本数据):
undersample = RandomUnderSampler(sampling_strategy='all')
X_under, y_under = undersample.fit_resample(X, y)
答案 0 :(得分:2)
您可以将字典传递给sample_strategy: undersample = RandomUnderSampler(sampling_strategy = {0:10,1:10,2:10,3:10})