当在大数据集上产生相关矩阵时,存在多个具有相同值的变量,因此不能进行相关并输出NA。我的问题是如何删除具有这些NA值的所有行和列,或在输出相关矩阵之前考虑此缺陷。例如,在这个例子中......
df <- as.data.frame(matrix(sample(0:10, 3*8, replace=TRUE), ncol=3))
df$V4 <- rep(3, times = 8)
df$V5 <- rep(2, times = 8)
correlation <- cor(df)
我尝试了不同的方法来克服这个问题,首先是通过在相关性计算中添加一个用途......
correlation_two <- cor(df, use = "pairwise.complete.obs")
但这没有影响力。我也尝试了各种方法来删除NA值,但这些方法似乎都没有用。
output1 <- na.omit(correlation)
output2 <- correlation[complete.cases(correlation),]
output3 <-correlation[,colSums(is.na(correlation))==0]
output4 <- correlation[, !colSums(is.na(correlation)) >1,drop=FALSE] #Removing columns
output4 <- output4[!rowSums(is.na(output4)) >1,drop=FALSE,]#Then rows
提前谢谢你。
答案 0 :(得分:4)
我认为最好是防止问题,而不是事后解决问题。
识别只有一个值的列:
select_for_correlation <- sapply(df,function(x)(length(unique(x))>1))
然后进行分析:
res <- cor(df[,select_for_correlation])
> res
V1 V2 V3
V1 1.00000000 -0.06801818 -0.04626592
V2 -0.06801818 1.00000000 -0.21533949
V3 -0.04626592 -0.21533949 1.00000000