我有一个算法可以将数据分组到一个分层的集群树中。该算法是Toby Seagram的编程集体智能中描述的算法。树输出是一个二叉树,每个节点都有一个“距离”值,它告诉你两个子节点相隔多远。
然后我可以将其显示为树状图,并且它使得人类斑点相当容易将值组合在一起。但是我很难想出一个能够自动决定组应该是什么的算法。我希望能够自动确定:
这是否有标准算法?
答案 0 :(得分:5)
我认为没有默认方法可以做到这一点。简单的“手动”方法是:
determine the number of clusters有一些自动方法。 R
有Dynamic Tree Cut package自动处理此问题,也可以使用pvclust。以下是另外两种处理此问题的方法,Salvador (2002)和Daniels (2006)。
答案 1 :(得分:0)
我发现Calinski-Harabasz指数(也称为方差比率标准)与层次聚类产生的树状图很好地配合。您可以在this paper中找到更多信息(和比较研究)。