我正在尝试计算2个变量数组的相关性,但是数组在中间是脱节的 - 但我试图获得一个相关系数
实施例
x:1, 2, [disjointed], 5.1, 5.2, 5.3, 5.4, 5.5, 5.6
y:2, 4, [disjointed], 9.1, 9, 8.9, 8.8, 8.7, 8.6
查看我上传的excel文件:http://www.qfpost.com/file/d?g=1UfQx3cUj
因为中间的不相交,值有些跳跃,当我将整个变量集合在一起时,我获得的相关系数并不能真正反映变量之间的关系
我如何计算一个相关系数?我可以计算两个单独的相关性,但无论如何将两个相关性加在一起?
谢谢你先生
[编辑:格式化&还添加了指向excel文件的链接]
答案 0 :(得分:0)
简短的回答:看看依赖的衡量指标除了相关性之外。
如果我正确理解您的问题,您正在考虑数据如下所示的问题:
#R code N=500 set.seed(10) x = rnorm(N) y = rnorm(N,10*x) plot(x,y) abline(reg = lm(y~x)) #correlation cor(x,y) [1] 0.9954706
这些显然与X和Y变量相关。
然而,你的情况看起来更像这样(显然,这是简化以显示一点):
abs = ifelse(x>0, 10, -10) y2 = rnorm(N,abs*x) plot(x,y2) abline(reg = lm(y2~x)) cor(x,y2) [1] -0.01952952
相关性是两个变量之间线性关系的函数。在顶部图像中,很明显Y严重依赖于X,并且接近1的相关性反映了线性关系。然而,在底部图像中,即使Y严重依赖于X,相关系数也几乎为0(并且在非常大的样本中将真正为0)。
这只是相关性的缺点 - 没有“修复”,你可以将X和Y的相关性加在X = 0之上和之下。如果您想要更好的方法来表征数据的相关性,请查看(例如)非线性回归技术。更好的是,与您所在机构的统计员合作(或在附近找一个)。如果没有更多数据,就无法确切知道您需要什么。
答案 1 :(得分:0)
如果您真的想要一个总结两组的相关性,您可以通过
计算元相关性1)将R和大小转换为Fisher的Z及其标准误差
https://en.wikipedia.org/wiki/Fisher_transformation
2)使用例如
通过元分析进行整合