我试图对数据集进行分层随机抽样,其中包括命中率非常不同的指标。当我尝试简单的分层随机抽样时,命中率较低的组不会进入最终的样本。我是否应该通过更加重视"低命中率"指标变量有实例吗?
当我尝试在我的采样中包含权重时,我一直收到错误:
dat <- iris
dat$ind <- ifelse(dat$Petal.Length > 1.5, 1, 0)
dat$ind2 <- ifelse(dat$Sepal.Length > 7, 1, 0)
summary(dat$ind)
summary(dat$ind2) # ind2 occurs significantly less than ind
sample <- dat %>% group_by(Species, ind, ind2) %>% sample_frac(size = 0.05)
如何在样本中加入能更好地平衡ind
和ind2
的权重?