确定分层群集中的组

时间:2012-09-02 15:04:32

标签: machine-learning hierarchical-clustering

我有一个算法可以将数据分组到一个分层的集群树中。该算法是Toby Seagram的编程集体智能中描述的算法。树输出是一个二叉树,每个节点都有一个“距离”值,它告诉你两个子节点相隔多远。

然后我可以将其显示为树状图,并且它使得人类斑点相当容易将值组合在一起。但是我很难想出一个能够自动决定组应该是什么的算法。我希望能够自动确定:

  • 群组数
  • 每组中应放置哪些点

这是否有标准算法?

2 个答案:

答案 0 :(得分:5)

我认为没有默认方法可以做到这一点。简单的“手动”方法是:

  • 指定您想要/期望的群集数量
  • 设置两个节点之间最大距离的阈值;任何距离较远的节点都属于另一个集群

determine the number of clusters有一些自动方法。 RDynamic Tree Cut package自动处理此问题,也可以使用pvclust。以下是另外两种处理此问题的方法,Salvador (2002)Daniels (2006)

答案 1 :(得分:0)

我发现Calinski-Harabasz指数(也称为方差比率标准)与层次聚类产生的树状图很好地配合。您可以在this paper中找到更多信息(和比较研究)。