我有一个data.frame,分别为响应者/无响应者(针对营销活动)分类响应变量(1,0)。应用程式95%的观察结果为0级(无响应)。
我需要对data.frame重新采样,以使类的比例相等。到目前为止,我已完成以下操作:
TRG_PCT=0.6
nr=nrow(df5)
trnIndex = sample(1:nr, size =round(TRG_PCT*nr),replace=FALSE)
cTrn=df5[trnIndex,]
cTst = df5[-trnIndex,]
Trn_pos <- subset(cTrn, subset = cTrn$TARGET_B==1)
Trn_neg <- subset(cTrn, subset = cTrn$TARGET_B==0)
这时,我已经对数据进行了分区以进行培训和测试。同样,我将训练数据分别划分为(0)和(1)个观测值Trn_pos和Trn_neg。
我遇到的问题是对Trn_pos和Trn_neg进行采样,以使它们在新的data.frame中相等地表示,每个50%。