R:QQ图中的样本大小注意事项

时间:2014-04-06 06:22:20

标签: r quantile

通常使用图形来评估给定样本的正常性。然而,QQ图需要大样本量才能可靠地表示正在采样的群体。在一些文本中说,至少需要一千个样本大小。这是一个示例R代码:

par(mfrow=c(2,3))
for(i in c(10, 100, 1e+3, 1e+4, 1e+5, 1e+6)){
  data <- rnorm(i, mean = 0, sd = 1)
  qqnorm(data, main=sprintf("Sample Size=%d", i)); qqline(data, col='red')
} 

代码产生以下内容:

enter image description here

问题1:我的样本有多大,比如理论上的 - / + 6 sigma?理论上,在66797346中发生了6次sigma事件(正常dist)!你怎么看 ?

问题2:无论样本大小如何,在极端情况下总会有一些点离开趋势线。看起来这是正常的&#34;和预期的行为。有人可以发布背后的理由吗?

THX, 里亚德

2 个答案:

答案 0 :(得分:3)

就回答您问题的一般回复而言,我首先会向您推荐excellent post that covers the topic quite nicely here。以下评论总结了作者在那里所做的工作。

通常,对于Q-Q图,基本思想是根据所讨论的分布计算每个数据点的理论预期值。如果数据遵循选定的分布,那么Q-Q图上的点应该大致在直线上。

作为总结帮助指定如何解释图,这里有一些指针。请注意,这是下面捕获的一些解释的主观因素:

  • 如果理论和数据分布的分位数一致,则绘制的点落在该线上或附近。

  • 如果理论和数据分布仅在位置或比例上有所不同,则图上的点落在线上或附近。斜率和截距是理论分布的尺度和位置参数的视觉估计。

  • Q-Q图对于位置和比例参数的图形估计比概率图更方便,因为Q-Q图的轴是线性缩放的。另一方面,概率图更便于估计百分位数或概率。

我在工作中使用的SAS有an excellent discussion of Q-Q plot interpretation。他们注意到了,我引用了:

“总的来说,有很多原因可以解释为什么QQ图中的点模式可能不是线性的.Chambers等人(1983)和Fowlkes(1987)讨论了常见的偏离线性的解释。它们提供了很好的地方开始。这是一个小小的总结:

  • 只有几个点落在一条线上 - &gt;数据中的异常值
  • 模式的左端在线下方;图案的右端在线上方 - &gt; 数据分布两端的长尾
  • 模式的左端在线之上;模式的右端在线下 - &gt; 数据分布两端的短尾
  • 具有从左到右增加的斜率的弯曲图案 - &gt;数据分布偏向右侧
  • 具有从左到右减小的斜率的弯曲图案 - &gt;数据分布偏向左侧
  • 楼梯图案(高原和间隙) - &gt; 数据已四舍五入或是离散的“

最后,就样本量而言,在判断q-q图与直线的接近程度时,应考虑样本量。也就是说,只需少量的n,就可以预期在Q-Q绘图输出的行尾会有一些随机变化偏差。

答案 1 :(得分:1)

我认为这个问题没有形成,这对我来说并不意外,因为我对教授标准六西格玛课程的人的经验是他们采用宗教而不是努力学习真正的统计数据。我并不是说你是一个这样的人,这是一个基于大约10年前在一家公司(GE)的流行文化中抽样的观察,所以这是一个小样本。任何极端点的可变性都将遵循极值理论的分布参数。

所有发行版的尾部行为都以少量分布为特征。如果你考虑什么决定极端分位数,比如第99.99百分位数,那么即使在四分位数边界被精确定位的情况下,samoling行为也只是极少数点。因为他们每一个都有25%orf点在一边和75%在另一方面。如果样本量为100,那么谈论99.5百分位是没有任何意义的,对于1000的小数量,99.95百分位也是如此,我希望你能看到这种模式的出现。在Google上搜索极值理论。

这也是错误的论坛。你应该用什么来澄清&#34;在理论上打出一个 - / + 6 sigma&#34;。这个词是什么&#34;击中&#34;实际上意味着一旦你定义了一个meaing&#34; hit&#34;你应该在CrossValidated.com上重新发布这个问题