正态性测试结果解释

时间:2018-04-28 04:21:41

标签: r

我有一个我需要找到的数据集

  1. 如果分配正常
  2. 在均值和中位数之间应该准确表示分布的集中趋势?
  3. 按照本教程 - http://www.sthda.com/english/wiki/normality-test-in-r,我做了以下内容。

    密度图

    enter image description here

    Q-Q情节

    enter image description here

    Shapiro-Wilk测试

    > shapiro.test(sample(df[[colName]],5000))
    
        Shapiro-Wilk normality test
    
    data:  sample(df[[colName]], 5000)
    W = 0.86463, p-value < 0.00000000000000022
    

    Anderson-Darling测试

    > ad.test(df[[colName]])
    
        Anderson-Darling normality test
    
    data:  df[[colName]]
    A = 213650, p-value < 0.00000000000000022
    

    我已经理解的一般指导是,如果p值是> 0.05基础分布正常的假设是正确的。

    在上面的测试中,我将p值设为p-value < 0.00000000000000022而不是精确值。我怎么解释这个?我应该使用均值还是中位数来表示分布的中心趋势?

1 个答案:

答案 0 :(得分:1)

这不是关于R的问题 - 您将从任何统计语言中获得类似的结果。那说......

我们可以在这个问题上犯2种错误。 如果分配真的正常,我们可能错误地断定分布不正常。 如果分布不正常,我们可以错误地断定这是正常的。这些分别称为类型1和类型2错误。现在,如果分布正常,我们就可以很好地了解数据的行为 - 至少是渐近的。如果真实分布不正常,我们就无法说出它的行为方式。也许它实际上是一个df = 100的t分布 - 虽然它在技术上并不正常,但看起来很像正常情况。它可能是指数的,对数正态的,Gamma,......不正常并没有说明的内容,只有不是的内容(它&# 39;不正常)。

由于这种不对称性,这些测试的想法如下:

  1. 将观察到的数据与我们期望看到的数据进行比较是否真的正常。衡量我们观察到的数据与我们期望看到的数据的差异。
  2. 计算我们看到观察到的差异至少与我们实际观察到的极端极端的概率。这就是我们所说的 p -value。
  3. 决定我们的 p - 值是否小到足以断定分配实际上是正常的。
  4. 对于那些不熟悉统计数据的人来说,这里有两个棘手的问题。首先是理解为什么我们需要关注&#34;至少是极端的&#34;而不仅仅是计算我们看到观察数据的概率。这样做的原因是完全任何给定距离的概率为0.我们需要查看范围以获得实际的非零概率......并且这里最有意义的范围是把事情看得更极端。

    第二个棘手的问题是结论。统计测试的工作方式与美国的刑事审判一样(至少应该如何运作)。就像被告在被证明有罪之前是无辜的一样,我们假设零假设是正确的(在这种情况下,零假设是&#34;分布是正常的&#34;)。只有当 p - 值足够小时,我们才会拒绝它,并说有足够的证据可以断定分布不正常。重要的是,我们从未证明零假设。如果数据真正遵循具有100个自由度的t分布,我们几乎肯定不会拒绝原假设,并且提交类型2错误(当我们不应该保持零假设时)。

    所以这将我们带到下一点 - 小到多小?统计学的创始人之一,一位名叫R.A.的杰出人物。费舍尔认为0.05似乎是正确的 - 从那以后它就成了标准。有时使用0.01或0.1,但0.05更常见。这个截止点有一个重要的解释 - 它也是我们犯下1型错误的可能性 - 当我们不应该错误地拒绝零假设。

    现在,解释一下你的结果。在您的情况下,使用0.01,0.05或0.1无关紧要 - 您的p值比任何值都低很多。实际上,它们足够小,以至于计算机可能会开始遇到机器错误(由于我们试图使用有限数量的计算机字节来表示不可数集,因此会发生错误) - 甚至可能无法准确计算出精确的p -value(确切的数字几乎总是不那么重要)。

    如此小的p值,测试表明你几乎不可能从正态分布中实际获得观察到的数据。您可以放心地拒绝零假设,并得出结论分布不正常。

    更新:平均值与中位数

    正如评论中所说的那样,没有一个正确的答案 - 这实际上取决于你想要完成的事情。看到建议说明中位数与非对称分布一起使用而平均值在对称分布中更常见时,这是很常见的。这是事实,但我认为这与变异性的测量比平均值更有关。

    对于对称分布,单个数字(例如标准偏差或方差)很好地表征了数据的可变性。这是第1和第2时刻的功能,与第1时刻(平均值)很好地配对。对于非对称分布,您需要分别查看分布的左侧和右侧,因为它们是不同的。让我们假设您使用范围捕获此值,该范围也对应于第0百分位数和第100百分位数。你也可以用四分位数范围(第25和第7百分位数)来捕获它 - 或者(甚至更好)两者。最终,这些与中位数(第50百分位数)完美配对。

    如果您的唯一目标是总结分布,则一般的经验法则很有效(对称 - >平均,非对称 - >中位数)。如果您需要估算并将其重新插入到另一个分析中,那么这将决定您的需求。您也可以考虑转换 - 也许您的分布非常偏斜,但在对数刻度上可能是正常的,然后几何平均值/ sd可能是最佳摘要。

    这里的外卖: 平均值与中位数的最大决定因素是您希望受众了解数据。这不是您拥有哪些数据的问题,而是想要说出的内容。