如何使用Python中的“ imblearn”库对两个以上类的数据集进行欠采样/过采样?

时间:2020-05-31 20:03:37

标签: python python-3.x python-2.7 imbalanced-data imblearn

我正在使用“ imblearn”库进行欠采样。我的数据集中有四个类,每个类有20、30、40和50个数据(这是一个不平衡的类)。

但是当我尝试使用“ fit_resample(X,y)”对数据集进行欠采样时,它只会对第一个和最后一个类进行欠采样。

有什么办法可以使用“ imblearn”对这四个类进行欠采样吗?

必要的代码:

# Dependencies
import os
import csv

#Set lists to hold values
months = []
revenue = []
monthly_change = []

# Set path for file
bank_csv_path = os.path.join("Resources", "budget_data.csv")

# Open and read file
with open(bank_csv_path, newline="") as csvfile:
    csv_reader = csv.reader(csvfile, delimiter=",")
    csv_header = next(csv_reader)

    # read thru each row after the header and list months
    for row in csv_reader:
        months.append(row[0])
        revenue.append(row[1])

1 个答案:

答案 0 :(得分:0)

设置 smapling_strategy ='all'即可解决问题。