分类问题中的类过采样

时间:2018-11-28 09:58:04

标签: python machine-learning oversampling

我几乎有100000个数据点,其中以“疾病”和“没有疾病”为特征的15个特征。

但是我的数据不平衡。我的数据中的97%不是疾病,而3%是疾病。 为了克服这个问题,我通过从实际数据创建7副本并将其与原始数据合并来手动创建疾病数据。 使用此代码。

#selecting data with disease is 1 
# Even created unique 'patient ID' by adding a dummy letter as a suffix to the #original ID.
ia = df[df['disease']==1]
dup = pd.DataFrame()
for i,j in zip(['a','b','c','d','e','f'],['B','C','E','F','G','H']):
    i = ia.copy()    
    i['dum'] =  j
    i["patient ID"] = i["Employee Code"]+ i['dum']
    dup= pd.concat([dup,i])
# adding the copies to the original data
df = pd.concat([dup,df])

请让我知道这是否是正确的过采样方法。

0 个答案:

没有答案