通过加权随机化创建集群

时间:2018-03-12 14:03:04

标签: r cluster-computing

问题:                整群抽样。我需要为一个国家的样本分配权重。我已按区域85(地区)划分人口,但我不能进行整群抽样。基本上,我需要每个创建100个集群 有15个单位。总共有1500名受访者 我有一个excel文件,其中包含85个区域的所有变量。

简而言之, 问题1:

如何使用已经创建的人口概率对100个群集进行加权随机化(每个群集15个单位)。

问题2:我需要从85个区域中抽取并生成100个聚类。从逻辑上讲,由于人口较多,首都和其他一些大城市应该拥有1个以上的集群,这使得他们拥有集群的概率更高。因此,我如何绘制聚类(每个15个单元)并为不同的区域分配多个聚类?对于instanca,群集概率为0.08%,这意味着我需要将8个群集(每个15个单位)分配给首都。如何添加该列? `

具体来说,我目前的结果是我无法生成每个区域的聚类数量的列。例如,区域A具有3个簇,而区域B 1等等。

提前谢谢

`data1$clusProb1 = (data1$Population.2018)/sum(data1$Population.2018)`

sampInd = c(1:length(data1$Federal.Subject),sample(1:length(data1$Federal.Subject), length(data1$Federal.Subject)*14, prob = data1$clusProb, replace = TRUE))

sampFields = data.frame(  

id = 1:(length(data1$Federal.Subject)*15),   Gender = sample(c(0,1), length(data1$Federal.Subject)*15, replace=TRUE), replace=TRUE))

sampleData = cbind(data1[sampInd,],sampFields)

sampleData

    summary(sampleData)

输出文件应为: 例如, 簇号区域
1 A. 2 A. 3 A. 4 C
5 D. 6
......

注意:A代表人口较多的地区,应该分配更多的集群。

0 个答案:

没有答案