Question

在R的初学者练习中，问的问题是生成一个大小为100的随机样本，其中均值= 10且sd = 3，所以为此我使用了rnorm（n = 100，mean = 10，sd） = 3）。但是，当我尝试生成生成样本的均值和sd时，我得到一个均值= 9.998和sd = 3.478。我的问题是：为什么两个均值和两个sd之间存在差异（我知道一个愚蠢的问题）？

度过愉快的一天

Answer 1

我试图说明评论中已提到的内容。为了增加样本量，我计算了随机样本平均值的10倍。您可以看到样本中的sd随着样本量的增加而减少。这对应于红线的长度。反过来，样本均值中的预期误差也在减小。您还可以观察到，均值的最大异常值（黑线）更接近真实均值。此外，均值的均值接近真实均值，然而，这是无聊的。

希望这有帮助

length=20

samples <- (1:length)*40

  values<-unlist(lapply(samples,
                 function(x){
                   lapply(1:10,
                         function(z) {
                           mean(rnorm(x,mean=10,sd=3))
                           }
                         )
                   }
                 ))

counts <- sort(rep(samples,10))  
points <- data.frame(counts=unlist(counts),values=(unlist(values)))
ggplot(points,aes(counts,values))+geom_point()+
  stat_summary(fun.y=mean,color="red",size=2,fun.ymin = function(x){mean(x)-sd(x)}, fun.ymax = function(x){mean(x+sd(x))})+
 stat_summary(fun.y=max,geom="line")+
 stat_summary(fun.y=min,geom="line")

R中的均值和sd（正态分布）

1 个答案: