聚类变量

时间:2014-01-29 12:50:21

标签: r cluster-analysis apriori

在大型高维二进制数据集(想想200,000多行和150多个字段)中查找可以在R中轻松实现的高度相关变量分组的一些经过验证的方法是什么?我想找到有助于解释的变量分组,所以我认为PCA不是最好的方法。

1 个答案:

答案 0 :(得分:1)

    library(Hmisc)
mtc <- mtcars[,2:8]
    mtcn <- data.matrix(mtc)
    clust <- varclus(mtcn)
    clust
    plot(clust)

?varclus :对变量进行层次聚类分析,使用Hoeffding D统计量,对Pearson或Spearman相关性进行平方,或两个变量均为正相似度量的观察比例。变量聚类用于评估共线性,冗余,以及将变量分成可以作为单个变量评分的集群,从而导致数据减少。

对于Binary Vraibles:

library(cluster)
data(animals)
ma <- mona(animals)
ma

plot(ma)  

?mona :返回一个列表,表示仅包含二进制变量的数据集的分裂层次聚类。