如何对相关性求和,或计算脱节变量的相关性

时间:2013-12-19 01:13:13

标签: c# windows excel math statistics

我正在尝试计算2个变量数组的相关性,但是数组在中间是脱节的 - 但我试图获得一个相关系数

实施例

x:1, 2, [disjointed], 5.1, 5.2, 5.3, 5.4, 5.5, 5.6

y:2, 4, [disjointed], 9.1, 9, 8.9, 8.8, 8.7, 8.6

查看我上传的excel文件:http://www.qfpost.com/file/d?g=1UfQx3cUj

因为中间的不相交,值有些跳跃,当我将整个变量集合在一起时,我获得的相关系数并不能真正反映变量之间的关系

我如何计算一个相关系数?我可以计算两个单独的相关性,但无论如何将两个相关性加在一起?

谢谢你先生

[编辑:格式化&还添加了指向excel文件的链接]

2 个答案:

答案 0 :(得分:0)

简短的回答:看看依赖的衡量指标除了相关性之外。

如果我正确理解您的问题,您正在考虑数据如下所示的问题:

#R code
N=500
set.seed(10)
x = rnorm(N)
y = rnorm(N,10*x)
plot(x,y)
abline(reg = lm(y~x))
#correlation
cor(x,y)
[1] 0.9954706

enter image description here

这些显然与X和Y变量相关。

然而,你的情况看起来更像这样(显然,这是简化以显示一点):

abs = ifelse(x>0, 10, -10)
y2 = rnorm(N,abs*x)
plot(x,y2)
abline(reg = lm(y2~x))
cor(x,y2)
[1] -0.01952952

enter image description here

相关性是两个变量之间线性关系的函数。在顶部图像中,很明显Y严重依赖于X,并且接近1的相关性反映了线性关系。然而,在底部图像中,即使Y严重依赖于X,相关系数也几乎为0(并且在非常大的样本中将真正为0)。

这只是相关性的缺点 - 没有“修复”,你可以将X和Y的相关性加在X = 0之上和之下。如果您想要更好的方法来表征数据的相关性,请查看(例如)非线性回归技术。更好的是,与您所在机构的统计员合作(或在附近找一个)。如果没有更多数据,就无法确切知道您需要什么。

答案 1 :(得分:0)

如果您真的想要一个总结两组的相关性,您可以通过

计算元相关性

1)将R和大小转换为Fisher的Z及其标准误差

https://en.wikipedia.org/wiki/Fisher_transformation

2)使用例如

通过元分析进行整合

https://cran.r-project.org/web/packages/rmeta/index.html