问题: 整群抽样。我需要为一个国家的样本分配权重。我已按区域85(地区)划分人口,但我不能进行整群抽样。基本上,我需要每个创建100个集群 有15个单位。总共有1500名受访者 我有一个excel文件,其中包含85个区域的所有变量。
简而言之, 问题1:
如何使用已经创建的人口概率对100个群集进行加权随机化(每个群集15个单位)。
问题2:我需要从85个区域中抽取并生成100个聚类。从逻辑上讲,由于人口较多,首都和其他一些大城市应该拥有1个以上的集群,这使得他们拥有集群的概率更高。因此,我如何绘制聚类(每个15个单元)并为不同的区域分配多个聚类?对于instanca,群集概率为0.08%,这意味着我需要将8个群集(每个15个单位)分配给首都。如何添加该列? `
具体来说,我目前的结果是我无法生成每个区域的聚类数量的列。例如,区域A具有3个簇,而区域B 1等等。
提前谢谢
`data1$clusProb1 = (data1$Population.2018)/sum(data1$Population.2018)`
sampInd = c(1:length(data1$Federal.Subject),sample(1:length(data1$Federal.Subject), length(data1$Federal.Subject)*14, prob = data1$clusProb, replace = TRUE))
sampFields = data.frame(
id = 1:(length(data1$Federal.Subject)*15),
Gender = sample(c(0,1), length(data1$Federal.Subject)*15, replace=TRUE),
replace=TRUE))
sampleData = cbind(data1[sampInd,],sampFields)
sampleData
summary(sampleData)
输出文件应为:
例如,
簇号区域
1 A.
2 A.
3 A.
4 C
5 D.
6
......
注意:A代表人口较多的地区,应该分配更多的集群。