在大型高维二进制数据集(想想200,000多行和150多个字段)中查找可以在R中轻松实现的高度相关变量分组的一些经过验证的方法是什么?我想找到有助于解释的变量分组,所以我认为PCA不是最好的方法。
答案 0 :(得分:1)
library(Hmisc)
mtc <- mtcars[,2:8]
mtcn <- data.matrix(mtc)
clust <- varclus(mtcn)
clust
plot(clust)
?varclus :
对变量进行层次聚类分析,使用Hoeffding D统计量,对Pearson或Spearman相关性进行平方,或两个变量均为正相似度量的观察比例。变量聚类用于评估共线性,冗余,以及将变量分成可以作为单个变量评分的集群,从而导致数据减少。
对于Binary Vraibles:
library(cluster)
data(animals)
ma <- mona(animals)
ma
plot(ma)
?mona :
返回一个列表,表示仅包含二进制变量的数据集的分裂层次聚类。