我有一个相对较大的数据集。我想使用clara进行群集。但是,克拉拉的结果取决于样本量。因此,目标不仅是确定聚类数,而且是确定合适的样本量。我知道一个可以“调整” calra应用程序的程序包。
libary(factoextra)
fviz_nbclust(scale(mtcars),
FUNcluster = clara,
method = "wss",
k.max = 6)
如果我理解正确设置samplesize
> 1的概念,则会将克拉拉转换为克拉兰。
fviz_nbclust(scale(mtcars),
FUNcluster = clara,
method = "wss",
k.max = 6,
samplesize = 2)
任何想法如何为clara(ns)获得正确的样本大小?
答案 0 :(得分:0)
尽你所能。
我怀疑选择大于1的样本是否会产生CLARANS,因为如果我没记错的话,它们会大不相同。但是,如果您对整个数据库进行采样,则CLARA定义为PAM。
最近有一篇论文介绍了PAM,CLARA和CLARANS的更快版本。确保使用更快的版本...