计算包含缺失值的相关系数

时间:2011-12-02 07:48:29

标签: r sas correlation reliability spss

我希望计算R中的某种形式的相关系数(或实际上任何常见的统计数据包),其中相关值受缺失值的影响。我不确定这是否可行,我正在寻找一种方法。我不想归咎于数据,但实际上希望根据某些系统方式中包含的不完整案例的数量来减少相关性。数据是由不同个体生成的一系列时间点,并且相关系数用于计算可靠性。在许多情况下,一个人的数据将包括比其他个人更多的时间点......

同样,不确定是否有任何标准程序来处理这种情况。

3 个答案:

答案 0 :(得分:3)

要注意的一件事是根据一个点是否缺失进行逻辑回归。如果没有关系,则表示支持假设缺失值不提供任何信息。如果这是你的情况,那么你将不必任何东西,只需执行你的计算没有缺少值。 R中的glm可用于逻辑回归。

另请注意,请参阅use="pairwise.complete.obs" cor参数,该参数可能适用于您,也可能不适用于您。

编辑:我在重新阅读问题的基础上修改了这个答案。

答案 1 :(得分:2)

我的感觉是,当有一个数据空间中有一个时间序列显示NA时,该对不能用于计算相关性,因为此时没有信息。由于没有关于这一点的信息,因此无法知道它将如何影响相关性。指定一个NA减少相关性似乎很棘手,如果一个观察点存在,这可能很容易改善相关性。

如果存在NA,则R中的默认行为是返回NA的相关性。可以使用'use'参数调整此行为。有关更多详细信息,请参阅该函数的文档。

答案 2 :(得分:1)

正如Paul Hiemstra在答案中指出的那样,没有办法知道相关性是否会更高或更低而没有缺失值。但是,对于某些应用,可能适合惩罚观察到的非匹配缺失值的相关性。例如,如果我们比较两个单独的编码器,我们可能希望编码器B说" NA"当且仅当编码员A说" NA"同样,我们希望他们的非NA值相关联。

根据这些假设,惩罚不匹配缺失值的一种简单方法是计算完整病例的相关性,并乘以在NA状态方面匹配的观察值的比例。然后可以将惩罚期限定义为:1 - mean((is.na(coderA) & !is.na(coderB)) | (!is.na(coderA) & is.na(coderB)))。下面是一个简单的例子。

fun = function(x1, x2, idx_rm) {
  temp = x2
  # remove 'idx_rm' points from x2
  temp[idx_rm] = NA

  # calculate correlations
  r_full = round(cor(x1, x2, use = 'pairwise.complete.obs'), 2)
  r_NA = round(cor(x1, temp, use = 'pairwise.complete.obs'), 2)
  penalty = 1 - mean((is.na(temp) & !is.na(x1)) |
                       (!is.na(temp) & is.na(x1)))
  r_pen = round(r_NA * penalty, 2)

  # plot
  plot(x1, temp, main = paste('r_full =', r_full, 
                              '; r_NA =', r_NA,
                              '; r_pen =', r_pen),
       xlim = c(-4, 4), ylim = c(-4, 4), ylab = 'x2')
  points(x1[idx_rm], x2[idx_rm], col = 'red', pch = 16)

  regr_full = as.numeric(summary(lm(x2 ~ x1))$coef[, 1])
  regr_NA = as.numeric(summary(lm(temp ~ x1))$coef[, 1])
  abline(regr_full[1], regr_full[2])
  abline(regr_NA[1], regr_NA[2], lty = 2)
}

运行一个简单的模拟来说明缺失值和惩罚的可能影响:

set.seed(928)
x1 = rnorm(20)
x2 = x1 * rnorm(20, mean = 1, sd = .8)
# A case when NA's artifically inflate the correlation, 
# so penalization makes sense:
myfun(x1, x2, idx_rm = c(13, 19))

# A case when NA's DEflate the correlation, 
# so penalization may be misleading:
myfun(x1, x2, idx_rm = c(6, 14))

# When there are a lot of NA's, penalization is much stronger
myfun(x1, x2, idx_rm = 7:20)

# Some NA's in x1:
x1[1:5] = NA
myfun(x1, x2, idx_rm = c(6, 14))