如何在dplyr sample_n和sample_frac中使用权重来表示不平衡数据集?

时间:2017-11-08 01:48:24

标签: r random dplyr

我试图对数据集进行分层随机抽样,其中包括命中率非常不同的指标。当我尝试简单的分层随机抽样时,命中率较低的组不会进入最终的样本。我是否应该通过更加重视"低命中率"指标变量有实例吗?

当我尝试在我的采样中包含权重时,我一直收到错误:

dat <- iris
dat$ind <- ifelse(dat$Petal.Length > 1.5, 1, 0)
dat$ind2 <- ifelse(dat$Sepal.Length > 7, 1, 0)
summary(dat$ind)
summary(dat$ind2) # ind2 occurs significantly less than ind

sample <- dat %>% group_by(Species, ind, ind2) %>% sample_frac(size = 0.05)

如何在样本中加入能更好地平衡indind2的权重?

0 个答案:

没有答案