Question

我正在使用“ imblearn”库进行欠采样。我的数据集中有四个类，每个类有20、30、40和50个数据（这是一个不平衡的类）。

但是当我尝试使用“ fit_resample（X，y）”对数据集进行欠采样时，它只会对第一个和最后一个类进行欠采样。

有什么办法可以使用“ imblearn”对这四个类进行欠采样吗？

必要的代码：

# Dependencies
import os
import csv

#Set lists to hold values
months = []
revenue = []
monthly_change = []

# Set path for file
bank_csv_path = os.path.join("Resources", "budget_data.csv")

# Open and read file
with open(bank_csv_path, newline="") as csvfile:
    csv_reader = csv.reader(csvfile, delimiter=",")
    csv_header = next(csv_reader)

    # read thru each row after the header and list months
    for row in csv_reader:
        months.append(row[0])
        revenue.append(row[1])

Answer 1

设置 smapling_strategy ='all'即可解决问题。

如何使用Python中的“ imblearn”库对两个以上类的数据集进行欠采样/过采样？

1 个答案: