Question

在大型高维二进制数据集（想想200,000多行和150多个字段）中查找可以在R中轻松实现的高度相关变量分组的一些经过验证的方法是什么？我想找到有助于解释的变量分组，所以我认为PCA不是最好的方法。

Answer 1

    library(Hmisc)
mtc <- mtcars[,2:8]
    mtcn <- data.matrix(mtc)
    clust <- varclus(mtcn)
    clust
    plot(clust)

?varclus :对变量进行层次聚类分析，使用Hoeffding D统计量，对Pearson或Spearman相关性进行平方，或两个变量均为正相似度量的观察比例。变量聚类用于评估共线性，冗余，以及将变量分成可以作为单个变量评分的集群，从而导致数据减少。

对于Binary Vraibles：

library(cluster)
data(animals)
ma <- mona(animals)
ma

plot(ma)

?mona :返回一个列表，表示仅包含二进制变量的数据集的分裂层次聚类。