寻找萨尔瓦多L-方法的线性时间实现,以确定簇的数量

时间:2016-02-22 06:39:32

标签: algorithm machine-learning linear-regression hierarchical-clustering

原始论文在http://cs.fit.edu/~pkc/papers/ictai04salvador.pdf

Stan Salvador和Philip Chan发现的L方法用于“确定层次聚类算法中的聚类数”

本文描述了算法,显然具有“线性时间复杂度”。

该算法的主要思想是:

给出评估图(x - 要合并的簇数,y - 合并距离)

鉴于 b =要群集的项目数

设RMSEC(c)=(c-1)/(b-1)* RMSE(Lc)+(b - c)/(b - 1)* RMSE(Rc) < / p>

注意:

  • RMSE 是最佳拟合线的均方根误差。
  • RMSE(Lc)是RMSE,给定x [1,c],y [1,c] - 评估图的左侧部分
  • RMSE(Rc)是给定的RMSE x [c + 1,b-1],y [c + 1,b-1] - 评估图的右侧部分

目标:找到最小化RMSEC的C(c)

为了计算它的时间复杂度,我假设

  • 最佳拟合线 - O(b)
  • 循环过c - O(b)

累积地,我无法想出这个算法的线性时间实现。

有没有人有任何想法改进这个?是否有可能逐步计算最佳拟合线以获得整体O(N)?或任何解决方法?

0 个答案:

没有答案