如何判断两个变量是否相关

时间:2018-05-06 19:18:15

标签: r statistics correlation p-value

在R:

中运行以下命令
cor.test(loandata$Age,loandata$Losses.in.Thousands)
  • loandata是数据集的名称
  • Age是独立变量
  • Losses.in.Thousands是因变量

以下是R:

的结果
Pearson's product-moment correlation

data:  loandata$Age and loandata$Losses.in.Thousands

t = -61.09, df = 15288, p-value < 2.2e-16

alternative hypothesis: true correlation is not equal to 0


95 percent confidence interval:

 -0.4556139 -0.4301315

sample estimates:

       cor 

-0.4429622 

如何确定Age是否与Losses.in.Thousand相关? 我们如何通过查看alpha值为0.05的p值来决定?

3 个答案:

答案 0 :(得分:1)

如另一个答案所述,OP中cor.test()产生的相关系数为-0.4429。 Pearson correlation coefficient衡量两个变量之间的线性关联。它在-1.0(完全负线性关联)和1.0(完全正线性关联)之间变化,幅度是系数的绝对值,或者它与0的距离(无关联)。

t检验表明相关性是否与零显着不同,给定其相对于其标准误差的大小。在这种情况下,t检验的概率值,p <1。 2.2e-16,表明我们应该拒绝相关为零的零假设。

那就是OP问题:

  

如何确定Age是否与Losses.in.Thousands相关?

有两个要素:统计意义和实质意义。

从统计显着性的角度来看,t检验表明相关性不为零。由于相关性的标准误差与自由度成反比变化,因此OP(15,288)中列出的非常大的自由度意味着更小的相关性仍然会导致统计上显着的t检验。这就是除了具有统计意义之外必须考虑实质意义的原因。

从实质意义的角度来看,解释各不相同。 Hemphill 2003引用了科恩(1988)对心理学研究中相关量的经验法则:

  • 0.10 - 低
  • 0.30 - 中等
  • 0.50 - 高

Hemphill继续对心理学研究中的相关系数进行meta分析,他总结如下表。

enter image description here

正如我们从表中可以看到的,Hemphill的经验指导方针远不如Cohen先前的建议那么严格。

替代方案:决定系数

作为替代方案,确定系数r^2可用作误差测量的比例减少。在这种情况下,r^2 = 0.1962,我们可以将其解释为“如果我们知道一个人的年龄,我们可以将预测损失的误差减少大约20%。”

参考:Burt Gerstman's Statistics Primer, San Jose State University

结论:解释因域名而异

鉴于问题域,如果文献接受0.45的相关幅度为“大”,则将其视为大,如许多社会科学中的情况。然而,在其他领域,需要更高的幅度才能将相关性视为“大”。

有时,即使是“小”关联也具有实质意义,因为Hemphill 2003在他的结论中有所注释。

  

例如,即使服用和预防心脏病发作的阿司匹林之间的相关性仅为r=0.03,(参见Rosenthal 1991,第136页) - 大多数统计标准 - 这个值可能是社会重要,但仍然影响社会政策。

答案 1 :(得分:0)

要知道变量是否相关,要查看的值是cor = -0.4429

在您的情况下,值是负相关的,但相关程度不是很高。

检查两个变量是否相关的简单,不那么混乱的方法,你可以这样做:

cor(loandata$Age,loandata$Losses.in.Thousands)
[1] -0.4429622 

答案 2 :(得分:-1)

Pearson检验的零假设是两个变量不相关:H0 = {rho = 0}

p值是测试的统计量(或其双尾测试的绝对值)超出实际观察结果(或双尾测试的绝对值)的概率。如果p值小于置信水平,则可以拒绝该假设。在您的测试中就是这种情况,这意味着变量是相关的。