我创建了两种聚类算法:k-means和divisive,也许稍后我也会添加聚合算法。我必须分析它们与高维数据有多好,为此我必须计算到集群中心的平均/总和距离。在k-means的情况下,它很容易,我有质心,但如何在分裂/集合算法中找到中心? 虽然我在这里:我目前已经实施了Euclede,Manhattans和Pearsons的距离,我还可以使用更多的距离测量吗? 提前谢谢!
答案 0 :(得分:1)
你可能想要这本书:
涵盖了您可以使用的许多备用距离函数。
可能有几百个一百个不同距离 ......
但是,您还需要查看您的评估方法 - 如果它是基于质心的,将偏向k-means。因此,比较可能不公平。
此外,如果您使用人工数据,请确保您不会不公平地偏爱一种方法而不是另一种方法,因为该方法与您生成数据的方式相关(例如,如果您生成高斯群集,则它倾向于使用k-means等方法)
答案 1 :(得分:0)
我的工作目标是分析这些集群,当他们必须从具有高维度的数据创建集群时。很难对它们进行评估,结果不太可能完全公平,所以我将使用一个集群中记录之间的平均累积距离和来自不同集群的两个记录之间的最小距离。 关于如何在分层聚类算法中找到聚类中心的方法 - 在k-means中使用的相同公式,用于在每次迭代后重新计算质心。