我试图用尺寸为15' 000 x 7的数据集进行模糊k均值聚类。我首先尝试了函数fanny,它花了R差不多7个小时来得到一个结果(我也尝试了其他参数但是它总是很慢;样本为5&000,000行,大约需要半小时)。使用cmeans功能需要27秒。与范妮不同的是什么?以下是我设置这两个函数的方法:
fn <- fanny(training, k=40, memb.exp=1.3, metric="manhattan")
cn <- cmeans(training, 40, iter.max=500, dist="manhattan", method="cmeans", m=1.3)
结果会员资格相似但不相同。此外,计算中心的计算方式如何?在范妮我使用以下内容:
cent <- matrix(NA,40,ncol(training))
for (k in 1:40){
cent[k,] <- colSums(fn$membership[,k]*training)/sum(fn$membership[,k])
}
将此应用于cmeans,我得到的结果与cmeans $ centers不同。
非常感谢!