查找最相似的样本集 - 查找给定大小的集群的函数

时间:2016-01-09 01:25:05

标签: r cluster-analysis hierarchical-clustering

我需要找到一个具有特定成员数的集群。如果我有任何数量的样本的距离数据,我想找到第一个在凝聚聚类期间三个位置聚集的发生率。在其他方面,我想找到最相似的三个样本集。

hclust(dist_object, method = complete)通过聚集为我提供了大小为3的聚类,但必须通过plot(hclust(dist_object, method = complete))直观地识别它。

我可以创建一个函数来使用hclust()$merge输出来查找具有三个成员的集群的集群聚集期间的第一个事件,但我想知道这样的函数是否已经存在。

很有可能使用聚类功能来接近这种方法并不正确。

1 个答案:

答案 0 :(得分:1)

尝试从不同的角度解决此问题。

例如,您可以查找到第二个最近邻居的距离,并选择该距离最小的对象。

这不一定会给你相同的结果,但应该快得多。

或者您自己实现了层次聚类(它不是很复杂),因此您可以在第一个聚类具有所需大小时提前停止。