我正在使用“ imblearn”库进行欠采样。我的数据集中有四个类,每个类有20、30、40和50个数据(这是一个不平衡的类)。
但是当我尝试使用“ fit_resample(X,y)”对数据集进行欠采样时,它只会对第一个和最后一个类进行欠采样。
有什么办法可以使用“ imblearn”对这四个类进行欠采样吗?
必要的代码:
# Dependencies
import os
import csv
#Set lists to hold values
months = []
revenue = []
monthly_change = []
# Set path for file
bank_csv_path = os.path.join("Resources", "budget_data.csv")
# Open and read file
with open(bank_csv_path, newline="") as csvfile:
csv_reader = csv.reader(csvfile, delimiter=",")
csv_header = next(csv_reader)
# read thru each row after the header and list months
for row in csv_reader:
months.append(row[0])
revenue.append(row[1])
答案 0 :(得分:0)
设置 smapling_strategy ='all'即可解决问题。