在R中,如何使用具有定义数量的群集的群集采样和每个群集中的观测值进行重新采样以准备进行引导?

时间:2018-11-29 02:19:57

标签: r survey resampling statistics-bootstrap

我有100个家庭的数据,这些数据是从一个较大的社区中随机抽取的。我现在想使用不同的整群抽样方法(即10个2户集群,5个4户集群)从原始的100个家庭样本中重新抽取10,000个20个家庭的样本。每个聚类将由随机选择的观测值和紧随其后的n个观测值组成。例如对于2个家庭的10个集群,每个集群将由随机选择的家庭和紧随其后的家庭组成。对于4个家庭的5个集群,每个集群将由一个随机选择的家庭和紧随其后的3个家庭组成。

通过以下简单随机抽样,我已经能够获得20个家庭的10,000次抓取所需的重采样输出:

dat <- data.frame(hh_id = c(1:100), var = sample(1:200, 100, replace = T))
rs <- NULL
for(i in 1:10000){rs[i] = list(dat[sample(nrow(dat), 20, replace=TRUE),])}

我将如何获得相同的输出,但是要随机选择2个家庭的10个群集(即每个抓取总共20个家庭),而不是简单的随机抽样。我已经研究了推断,采样和重采样软件包以及其他软件包,并在这里仔细浏览了其他文章,但似乎找不到适用的解决方案。

最后,我将比较每种抽样方法与100个家庭平均值的方差,以找到准确性和效率之间的平衡。如果有直接引导所有这些内容的捷径,我也会对此感兴趣。

0 个答案:

没有答案