R中的均值和sd(正态分布)

时间:2016-01-23 10:16:53

标签: r random mean

在R的初学者练习中,问的问题是生成一个大小为100的随机样本,其中均值= 10且sd = 3,所以为此我使用了rnorm(n = 100,mean = 10,sd) = 3)。但是,当我尝试生成生成样本的均值和sd时,我得到一个均值= 9.998和sd = 3.478。我的问题是:为什么两个均值和两个sd之间存在差异(我知道一个愚蠢的问题)?

度过愉快的一天

1 个答案:

答案 0 :(得分:0)

我试图说明评论中已提到的内容。 为了增加样本量,我计算了随机样本平均值的10倍。您可以看到样本中的sd随着样本量的增加而减少。这对应于红线的长度。反过来,样本均值中的预期误差也在减小。 您还可以观察到,均值的最大异常值(黑线)更接近真实均值。   此外,均值的均值接近真实均值,然而,这是无聊的。

希望这有帮助

![enter image description here

length=20

samples <- (1:length)*40

  values<-unlist(lapply(samples,
                 function(x){
                   lapply(1:10,
                         function(z) {
                           mean(rnorm(x,mean=10,sd=3))
                           }
                         )
                   }
                 ))

counts <- sort(rep(samples,10))  
points <- data.frame(counts=unlist(counts),values=(unlist(values)))
ggplot(points,aes(counts,values))+geom_point()+
  stat_summary(fun.y=mean,color="red",size=2,fun.ymin = function(x){mean(x)-sd(x)}, fun.ymax = function(x){mean(x+sd(x))})+
 stat_summary(fun.y=max,geom="line")+
 stat_summary(fun.y=min,geom="line")