我最近遇到了最小生成树的想法,并发现它在群集中有一个应用程序。我正在寻找可用作各种聚类算法的数据源的真实数据集(最好是干净的)。有一个信息表明MST聚类在球形和非球形数据上运行良好。这也是非球形数据集的原因。
我想到的数据集应包含基本事实信息(标签),因此各种算法的有效性可以通过与WSS不同的东西来衡量。
答案 0 :(得分:1)
最小生成树聚类是标准的并且经过充分研究。
它的名字不同。
单链路层次聚类正是最小生成树,快速SLINK算法与Prim的关系密切相关。
这些弱点也很清楚。而且您几乎可以使用任何数据集。例如,常见的Iris数据集。