作为一名普通的R用户,我正在学习使用python进行分析,我开始使用卡方并执行以下操作:
> chisq.test(matrix(c(10,20,30,40),nrow = 2))$p.value # test1
[1] 0.5040359
> chisq.test(matrix(c(1,2,3,4),nrow = 2))$p.value # test2
[1] 1
Warning message:
In chisq.test(matrix(c(1, 2, 3, 4), nrow = 2)) :
Chi-squared approximation may be incorrect
> chisq.test(matrix(c(1,2,3,4),nrow = 2),correct = FALSE)$p.value # test3
[1] 0.7781597
Warning message:
In chisq.test(matrix(c(1, 2, 3, 4), nrow = 2), correct = FALSE) :
Chi-squared approximation may be incorrect
In [31]:
temp = scipy.stats.chi2_contingency(np.array([[10, 20], [30, 40]])) # test1
temp[1] # pvalue
Out[31]:
0.50403586645250464
In [30]:
temp = scipy.stats.chi2_contingency(np.array([[1, 2], [3, 4]])) # test2
temp[1] # pvalue
Out[30]:
0.67260381744151676
对于test1
,我很满意,因为来自python和R的测试显示出类似的结果,但test2
不是这种情况,因为R有参数correct
,所以我改变了它默认值,生成的p值不相同。
我的代码有什么问题吗?我应该选择哪一个"?
感谢您的反馈。我知道卡方检验不应该用于值小于5的单元格,我应该使用fisher精确检验,我担心的是为什么R和Python给p值带来如此巨大的差异。
答案 0 :(得分:4)
除了细胞计数< 5问题,根据我的经验,统计测试的R和Python实现通常都有默认启用的各种更正(应该改进基本方法)。关闭修正似乎使scipy
p值与R匹配:
scipy.stats.chi2_contingency(np.array([[1, 2], [3, 4]]), correction=False)
Out[6]:
# p-val = 0.778159
(0.079365079365079388, 0.77815968617616582, 1, array([[ 1.2, 1.8],
[ 2.8, 4.2]]))
这同样适用于t检验等,其中默认可能会或可能不会假设相等的方差。基本上每当你在统计之间匹配输出时遇到麻烦 软件,开始查看默认参数,看看你是否应该启用或禁用这些调整。