在r中使用马哈拉诺比斯距离进行的

时间:2017-02-03 15:29:48

标签: r cluster-computing

我有5000人的数据集,有60个参数。 我想用mahalanobis距离对它们进行聚类,我在这个主题中看到了几个问题而且我很困惑。 我可以使用来自" stats"的mahalanobis功能吗?然后使用" stats"中的kmeans函数? 如果我没有先进的中心(这就是我希望群集找到中心并集中每个人的那一点)我该怎么办? 我该如何计算cov吧?如果没有它,它就无法运作。

如果有人可以向我解释,我会很感激,因为我想做得对。

第1步:

mah_dist <- mahalanobis(x, center, cov, inverted = FALSE, ...)

第2步:

确定群集数

wss <- (nrow(mah_dist)-1)*sum(apply(mah_dist,2,var))
for (i in 2:15) wss[i] <- sum(kmeans(mah_dist, 
                                     centers=i)$withinss)
plot(1:15, wss, type="b", xlab="Number of Clusters",
     ylab="Within groups sum of squares")

kmeans(mah_dist, k=10)

0 个答案:

没有答案