Question

我有一个相对较大的数据集。我想使用clara进行群集。但是，克拉拉的结果取决于样本量。因此，目标不仅是确定聚类数，而且是确定合适的样本量。我知道一个可以“调整” calra应用程序的程序包。

libary(factoextra)

fviz_nbclust(scale(mtcars), 
             FUNcluster = clara, 
             method = "wss", 
             k.max = 6)

如果我理解正确设置samplesize> 1的概念，则会将克拉拉转换为克拉兰。

fviz_nbclust(scale(mtcars), 
             FUNcluster = clara, 
             method = "wss", 
             k.max = 6, 
             samplesize = 2)

任何想法如何为clara（ns）获得正确的样本大小？

Answer 1

尽你所能。

我怀疑选择大于1的样本是否会产生CLARANS，因为如果我没记错的话，它们会大不相同。但是，如果您对整个数据库进行采样，则CLARA定义为PAM。

最近有一篇论文介绍了PAM，CLARA和CLARANS的更快版本。确保使用更快的版本...