如何获得Wilcoxon-Mann-Whitney秩和检验的表格间隔

时间:2018-09-10 19:00:21

标签: r statistics

我正在Rblogger上阅读有关Wilcoxon排名和测验的使用的主题:https://www.r-bloggers.com/wilcoxon-mann-whitney-rank-sum-test-or-test-u/

特别是这部分,在这里我引用:

  

“我们终于可以比较独立样本的Wilcoxon表上列出的间隔。两组每6个样本的列表间隔为(26,52)”。

如何获取这些“列表”值?
我了解他们使用了一个表格,其中根据每个样本的大小报告了这些值,但是我想知道是否有一种方法可以在R中获得它们。

这很重要,因为据我所知,一旦p值> 0.05,因此不能拒绝零假设H0,则可以通过比较“计算的”和“列表的”间隔来实际确认H0。

所以我需要的是使用R的列表间隔。

1 个答案:

答案 0 :(得分:3)

tl; dr

  1. 您可以通过指定conf.int=TRUE来获得Mann-Whitney-Wilcoxon检验的置信区间。

  2. 不相信您在互联网上阅读的所有内容...

    • 如果“确认”是指“确保计算正确”,则无需通过查询原始表进行仔细检查; p值应足以决定是否可以拒绝H0。您可以信任R使用标准的,广泛使用的统计方法。 (下面我还将展示如何使用与coin包不同的实现来重复计算,这几乎是独立的检查。)
    • 如果“确认”是指“接受原假设”,请不要这样做;这是对频繁主义者统计理论的根本违反,该理论认为您可以拒绝一个无效假设,但是您永远不能接受该无效假设。较宽的置信区间和大于给定阈值的p值证明结论是不确定(我们无法确定null或替代项是否为真),而不是null为真。所提到的博客文章的结论文本(“我们通过接受均值均等假设H0得出结论”)在统计上是错误的。

解释不确定性的更好方法是查看置信区间。您可以为Wilcoxon测试计算这些:从?wilcox.test

  

...(如果参数“ conf.int”为真(并且正在执行两样本测试)),则为非参数        置信区间和估计器...位置参数的差异        计算出“ x-y”。

> a = c(6, 8, 2, 4, 4, 5)
> b = c(7, 10, 4, 3, 5, 6)
> wilcox.test(b,a, conf.int=TRUE, correct=FALSE)
data:  b and a
W = 22, p-value = 0.5174
alternative hypothesis: true location shift is not equal to 0
95 percent confidence interval:
 -1.999975  4.000016
sample estimates:
difference in location 
             0.9999395 

高p值(0.5174)表示我们真的无法判断ab中的值的排名是否显着不同。 difference in location为我们提供了估计的中位数等级之间的差异,而置信区间为该差异提供了置信区间。在这种情况下,对于样本大小为12的样本,估计的秩差为1(b组的秩比a组稍高),置信区间为(-2,4)(数据与b组具有等级略低于或高于a)组。公认地,很难解释这些值的实质含义,这是基于等级的非参数检验的缺点之一。

您可以假设wilcox.test()计算出的p值是针对原假设的证据的合理总结;无需在表格中查找范围。如果您担心基于R的wilcox.test(),可以尝试使用wilcox_test()软件包中的coin

dd <- data.frame(f=rep(c("a","b"),each=6),x=c(a,b))
wilcox_test(x~f,data=dd,conf.int=TRUE) ## asymptotic test

给出与wilcox.test()

几乎相同的结果
 wilcox_test(x~f,data=dd,conf.int=TRUE, distribution="exact")

其p值略有不同,但置信区间基本相同。

仅具有历史意义

关于表格:我在Google books上找到了它们,方法是使用author:katti author:wilcox进行Google Scholar搜索。在这里,您可以阅读有关其计算方式的说明。这并非不可能复制,但是由于p值和置信区间可以通过其他方法获得,因此似乎没有必要。仔细研究,您会发现:

enter image description here

红色框中的数字0.0206表示间隔(26,52)对应于一尾p值0.0206(二尾= 0.0412);这是离散范围内最接近的值。下一个最接近的范围在[(27,51),单尾p = 0.0325,两尾= 0.065]下面的行中给出。 在21世纪,您永远不必执行此过程。