应用错误收集

在应用L方法确定数据集中k-means聚类的数量之前，是否有人尝试将更平滑的应用程序应用于评估指标？如果是这样，它是否改善了结果？或者允许更少数量的k-means试验，从而大大提高速度？您使用了哪种平滑算法/方法？

这将计算一系列不同试验群集计数的评估指标。然后，为了找到膝盖（出现最佳簇数），使用线性回归拟合两条线。应用一个简单的迭代过程来改善膝盖拟合 - 这使用现有的评估度量计算，并且不需要重新运行k均值。

对于评估指标，我使用的是Dunns指数的简化版本的倒数。简化速度（基本上我的直径和簇间计算得到简化）。倒数使得指数在正确的方向上工作（即，通常更好）。

K-means是一种随机算法，因此通常会多次运行并选择最佳拟合。这非常有效，但是当您为1..N群集执行此操作时，时间会快速累加。因此，控制运行次数符合我的利益。整体处理时间可能决定我的实现是否实用 - 如果我无法加速，我可能会放弃此功能。