确定Clara(Clarans)中的样本数量

时间:2019-06-05 10:14:24

标签: r cluster-analysis

我有一个相对较大的数据集。我想使用clara进行群集。但是,克拉拉的结果取决于样本量。因此,目标不仅是确定聚类数,而且是确定合适的样本量。我知道一个可以“调整” calra应用程序的程序包。

libary(factoextra)

fviz_nbclust(scale(mtcars), 
             FUNcluster = clara, 
             method = "wss", 
             k.max = 6)

如果我理解正确设置samplesize> 1的概念,则会将克拉拉转换为克拉兰。

fviz_nbclust(scale(mtcars), 
             FUNcluster = clara, 
             method = "wss", 
             k.max = 6, 
             samplesize = 2)

任何想法如何为clara(ns)获得正确的样本大小?

1 个答案:

答案 0 :(得分:0)

尽你所能。

我怀疑选择大于1的样本是否会产生CLARANS,因为如果我没记错的话,它们会大不相同。但是,如果您对整个数据库进行采样,则CLARA定义为PAM。

最近有一篇论文介绍了PAM,CLARA和CLARANS的更快版本。确保使用更快的版本...