在应用L方法确定数据集中k-means聚类的数量之前,是否有人尝试将更平滑的应用程序应用于评估指标?如果是这样,它是否改善了结果?或者允许更少数量的k-means试验,从而大大提高速度?您使用了哪种平滑算法/方法?
“L-Method”详述如下: Determining the Number of Clusters/Segments in Hierarchical Clustering/Segmentation Algorithms, Salvador & Chan
这将计算一系列不同试验群集计数的评估指标。然后,为了找到膝盖(出现最佳簇数),使用线性回归拟合两条线。应用一个简单的迭代过程来改善膝盖拟合 - 这使用现有的评估度量计算,并且不需要重新运行k均值。
对于评估指标,我使用的是Dunns指数的简化版本的倒数。简化速度(基本上我的直径和簇间计算得到简化)。倒数使得指数在正确的方向上工作(即,通常更好)。
K-means是一种随机算法,因此通常会多次运行并选择最佳拟合。这非常有效,但是当您为1..N群集执行此操作时,时间会快速累加。因此,控制运行次数符合我的利益。整体处理时间可能决定我的实现是否实用 - 如果我无法加速,我可能会放弃此功能。
答案 0 :(得分:6)
我过去曾问过similar question。我的问题是如何找到一种找到你描述的L形膝盖的一致方法。所讨论的曲线代表了复杂性与模型拟合度量之间的权衡。
best solution根据显示的数字找到距离最远d
的点:
注意:我还没看过您链接的论文..