让我们假设一个分层抽样设计,其中一些群体过度,而其他群体的代表性不足以用于理论目的。
对于所有测试统计和回归类型模型,我们可以使用survey
中的R
包来更正抽样设计,方法是根据每个观察值在真实总体N中的出现次数给出一个权重。
但是我没有找到检查这些模型的一些基本假设的方法。
让我们假设采样数据如下所示:
df<-data.frame(var=1:1000,
weights=as.numeric(as.character(cut(abs(sort(rnorm(1000))),breaks=10,labels = (10:1)))))
我们可以观察到,变量&#34; var&#34; 在样本中显然不是正常分布的。夏皮罗测试证实了这一点:
shapiro.test(df$var)
给出
Shapiro-Wilk normality test
data: df$var
W = 0.95481, p-value < 0.00000000000000022
然而,如果我们例如,权重可以改变这个比较加权和未加权直方图:
library('survey')
df$id<-paste("id",1:1000,sep="")
df.weights<-svydesign(id=~id,
weights=~weights,
data=df)
hist(df$var)
svyhist(~var,df.weights)
因此,&#34; true&#34; N中变量的分布可能更接近正常。在N的正常情况下,我认为假设正态性的统计方法在校正调查设计的模型中是有效的。
所以我的问题是,如何对不同重量的分层样本进行正态性检验?