是否有可能在集群层面对调查数据进行估算?

时间:2015-06-12 10:28:26

标签: r cluster-analysis survey estimation

在根据聚类的调查数据进行估算并使用 r 调查包时,是否可以在群集进行估算水平?例如;遵循调查设计

data(api)
dclus1 <- svydesign(id=~dnum, weights=~pw, data=apiclus1, fpc=~fpc)  

这是一个从调查包中复制的例子。这里, dnum 是区, fpc 是区内的学校数。在这种情况下,我们可以在地区级别创建子集吗?例如,要估算代码为637的地区的总入学人数:

sub1=subset(dclus1, dnum==637)
svytotal(~enroll, sub1)

我得到了以下输出:

        total     SE
enroll 205824 203774

我不知道它是否是正确的方法。任何帮助将不胜感激。

2 个答案:

答案 0 :(得分:0)

是的,您可以使用subset。从文档(参见`?subset.survey.design):

  

将调查设计限制在子群体中,保留原件   关于簇数,层数的设计信息。如果设计有   子集将不使用后分层或校准数据   比例较少的记忆。

您也可以使用

svyby(~enroll, ~dnum, design = dclus1, svytotal)

计算所有群集的统计信息。

答案 1 :(得分:0)

我认为取决于 - 您可能会发现调查统计人员会不同意您是否可以在特定情况下执行此操作,但大多数人可能会承认,至少,您需要考虑它是什么在结束分析之前,您所拥有的数据的含义是可辩护的。

考虑如何绘制样本以及群集中有多少观察结果。最复杂的抽样调查不是简单的随机抽样,因此集群和分层都不一定代表单个部分 - 调查设计的构建是为了汇总而不是在抽样集群层面构建代表性样本。

作为一个例子,劳工统计局不考虑使用region变量进行分析(region与其抽样设计相关)consumer expenditure survey

群集可能只是某个小村庄中代表性不足的群体。一个极端的例子,但我建议您在使用设计变量对微数据进行子集化时要谨慎。