我有一系列数据框,其中包含每日降雨量总计(连续数据)以及是否发生洪水(二进制数据,即1或0)。每个数据帧代表一年(例如df01,df02,df03等),如下所示:
date ppt fld
01/02/2011 1.5 0
02/02/2011 0.0 0
03/02/2011 2.7 0
04/02/2011 4.6 0
05/02/2011 15.5 1
06/02/2011 1.5 0
...
我希望对每年的数据进行逻辑回归,但是由于洪水事件相对于降雨事件的数量非常少,因此数据严重失衡。因此,我只想对少数群体(“ fld”中的值为1)进行升采样。到目前为止,我知道根据'fld'值将每个数据帧分为两个,对最终的'1'数据帧进行升采样,然后重新合并为一个数据帧。
# So if I apply to one dataframe it looks like this:
# Separate majority and minority classes
mask = df01.fld == 0
fld_0 = df01[mask]
fld_1 = df01[~mask]
# Upsample minority class
fld_1_upsampled = resample(fld_1,
replace=True, # sample with replacement
n_samples=247, # to match majority class
random_state=123) # reproducible results
# Combine majority class with upsampled minority class
df01_upsampled = pd.concat([fld_0, fld_1_upsampled])
由于我有17个数据帧,因此逐个数据帧效率低下。是否有关于如何提高效率的想法?到目前为止,我已经尝试过了(很明显,我不知道我正在使用这种循环做什么,我对python还是很陌生):
df_all = [df01, df02, df03, df04,
df05, df06, df07, df08,
df09, df10, df11, df12,
df13, df14, df15, df16, df17]
# This is my list of annual data
for i in df_all:
fld_0 = i[mask]
fld_1 = i[~mask]
fld_1_upsampled = resample(fld_1,
replace=True, # sample with replacement
n_samples=len(fld_0), # to match majority class
random_state=123) # reproducible results
i_upsampled = pd.concat([fld_0, fld_1_upsampled])
return i_upsampled
哪个返回以下错误:
---------------------------------------------------------------------------
ValueError Traceback (most recent call last)
<ipython-input-36-6fd782d4c469> in <module>()
11 replace=True, # sample with replacement
12 n_samples=247, # to match majority class
---> 13 random_state=123) # reproducible results
14 i_upsampled = pd.concat([fld_0, fld_1_upsampled])
15 return i_upsampled
~/anaconda3/lib/python3.6/site-packages/sklearn/utils/__init__.py in resample(*arrays, **options)
259
260 if replace:
--> 261 indices = random_state.randint(0, n_samples, size=(max_n_samples,))
262 else:
263 indices = np.arange(n_samples)
mtrand.pyx in mtrand.RandomState.randint()
ValueError: low >= high
任何建议或评论都非常感激:)
更新:一个答复表明,我的某些数据框可能不包含少数类的任何样本。这是正确的,因此我已将其删除,但是会出现相同的错误。
答案 0 :(得分:0)
给您带来的好处是,您怀疑您在第二个代码块中使用的语法与第一个代码块中的语法相同,mask
似乎没有传递给您的{{1 }}中的一个或多个DF:
resample