我正在分析美国房屋调查局的数据,该数据带有重复权重以计算正确的标准误差,使用survey
在R中,但是我想确保自己正确指定了设计。< / p>
这是我的方法:
svy <- svrepdesign(data = ahs,
weight = ~WEIGHT,
repweights = "REPWEIGHT[0-9]+",
type = "Fay",
rho = 0.5,
scale = 4/160,
rscales = rep(1, 160),
mse = TRUE)
我将rho
设置为0.5
,因为在指南第3.1节中,使用了由人口普查局发布的复制权重,其中它们解释了如何使用SAS(https://www.census.gov/content/dam/Census/programs-surveys/ahs/tech-documentation/2015/Quick%20Guide%20to%20Estimating%20Variance%20Using%20Replicate%20Weights%202009%20to%20Current.pdf ),他们说使用选项VARMETHOD = BRR(FAY)而不指定任何其他选项,并且根据SAS文档(http://support.sas.com/documentation/onlinedoc/stat/142/surveymeans.pdf),此参数的默认值为0.5。
我将mse
设置为TRUE
,因为在公式中它们给出了第4节中的标准误差,平方差的总和是根据用全部样本权重计算出的统计量的估计值进行计算的
最后,我将scale
设置为4/160
,将rscales
设置为rep(1, 160)
,因为在相同的公式中,平方差的总和乘以4/160
但是sum运算符内部没有乘法器。
但是,当我查看Anthony Joseph Damico在美国房屋调查(http://asdfree.com/american-housing-survey-ahs.html)上的网页时,他做到了:
ahs_design <-
svrepdesign(
weights = ~ wgt90geo ,
repweights = "repwgt[1-9]" ,
type = "Fay" ,
rho = ( 1 - 1 / sqrt( 4 ) ) ,
mse = TRUE ,
data = ahs_df
)
忘记权重变量的名称,该变量在2015年才进行了更改(大概是在他写完该网页之后),除了不指定scale
和{{1}之外,他的工作方式与我相同。 }。根据我上面的解释和rscales
的文档,在我看来他应该像我一样指定它们,但是我之前从未使用过survey
的复制权重,所以我想确定。
P。 S.我什至发现更奇怪的是,当我尝试不指定survey
和scale
时,我计算出的标准误差似乎与我相同。这意味着在实践中如何做可能无关紧要,但是由于如果我指定rscales
和scale
,则用于计算标准误差的公式应该是不同的,所以我仍然希望了解为什么它似乎不影响rscales
计算的标准误差。
P。 S. bis:我不了解的另一件事是,即使人口普查局说它已经使用了Fay的方法并建议使用SAS程序,这将导致Fay系数为survey
,但没有它发布的指南中给出的标准误差公式中似乎是Fay系数。这意味着,如果我要编写自己的代码来使用该公式计算标准错误,则结果可能与我将0.5
与survey
的{{1}}或人口普查局建议使用SAS程序来计算标准误,这对我来说没有多大意义。
答案 0 :(得分:1)
svrepdesign
不需要Fay复制权重的scale
或rscales
参数,因为它可以自行计算权重。这就是知道type
个权重的关键所在。无论如何,当您指定它们时,我可能应该添加一条警告。
公式中不需要明确地包含Fay系数。构造权重后,将采样权重乘以2-rho
或rho
以获得重复权重。都做完了现在,您只需要知道如何缩放残差平方即可。人口普查局公式(链接的p6)的乘数为4/160。那4是1/(1-rho)^2
- Anthony Damico的代码进行了反向转换,从rho=0.5
算出4
。
直接BRR的乘数为1/160,而不是4/160。