在R的初学者练习中,问的问题是生成一个大小为100的随机样本,其中均值= 10且sd = 3,所以为此我使用了rnorm(n = 100,mean = 10,sd) = 3)。但是,当我尝试生成生成样本的均值和sd时,我得到一个均值= 9.998和sd = 3.478。我的问题是:为什么两个均值和两个sd之间存在差异(我知道一个愚蠢的问题)?
度过愉快的一天
答案 0 :(得分:0)
我试图说明评论中已提到的内容。 为了增加样本量,我计算了随机样本平均值的10倍。您可以看到样本中的sd随着样本量的增加而减少。这对应于红线的长度。反过来,样本均值中的预期误差也在减小。 您还可以观察到,均值的最大异常值(黑线)更接近真实均值。 此外,均值的均值接近真实均值,然而,这是无聊的。
希望这有帮助
length=20
samples <- (1:length)*40
values<-unlist(lapply(samples,
function(x){
lapply(1:10,
function(z) {
mean(rnorm(x,mean=10,sd=3))
}
)
}
))
counts <- sort(rep(samples,10))
points <- data.frame(counts=unlist(counts),values=(unlist(values)))
ggplot(points,aes(counts,values))+geom_point()+
stat_summary(fun.y=mean,color="red",size=2,fun.ymin = function(x){mean(x)-sd(x)}, fun.ymax = function(x){mean(x+sd(x))})+
stat_summary(fun.y=max,geom="line")+
stat_summary(fun.y=min,geom="line")