如何计算R中庞大数据集中两个变量的相关性?

时间:2011-09-26 06:02:06

标签: r correlation

我有一个包含六列的大型数据集(称为A,B,C,D,E,F),大约450,000行。我只是试图找到列AB之间的相关性:

cor(A, B)

我得到了

  

[1] NA

结果是

。我该怎么做才能解决这个问题?

2 个答案:

答案 0 :(得分:13)

试试cor(A,B, use = "pairwise.complete.obs")。这将忽略观察中的NA。

要在统计上严谨,您还应该查看数据中缺少的条目数,并查看随机假设中的缺失是否成立。

修改1:查看?cor以查看use参数的其他选项。

答案 1 :(得分:4)

您可以考虑在Hmisc包中使用rcorr功能。

它非常快,只包括成对完整的观察。返回的对象包含矩阵

  1. 相关分数
  2. 用于每个相关值的观察次数
  3. 每个相关的p值
  4. 一些示例代码可用here