我正在使用调查包来分析两阶段调查的数据。第一阶段包括~5000例,第二阶段包括〜2700例。预先计算重量以调整几个变量(种族,性别等)和(据我所知)在进行第2阶段时样本量的减少。
我对二进制变量的比例很感兴趣,例如:病人与健康人自杀。
我在整个示例
中收到的简单输出示例table (df$schiz,df$suicide)
0 1
0 4857 8
1 24 0
我在第二阶段样本中仅接收的简单输出示例:
table (df2$schiz,df2$suicide)
0 1
0 2685 5
1 24 0
在第二阶段样本中包含权重:
dfw<-svydesign(ids=~1,data=df2, weights=df2$weights)
svytable (~schiz+suicide, design=dfW)
suicide
schiz 0 1
0 2701.51 2.67
1 18.93 0.00
我的问题是:当从第1阶段转移到第2阶段时,重量不应该是N的减少吗?也就是说,校正后第二张表的总N不应该是〜5000例,而不是现在的〜2700?