治愈算法的缺点

时间:2017-06-01 17:19:55

标签: algorithm cluster-analysis

我搜索了很多,但找不到Cure算法的缺点。它们是Cure聚类算法的限制吗?

由于

1 个答案:

答案 0 :(得分:1)

从治愈算法的Wikipedia Article获取此解释

简短的回答是运行时复杂性

  • 运行时间为O(n ^ 2 log(n))
  • 空间复杂度为O(n)

对于数据库应用程序,这是一个相当高的运行时复杂性,因此您可能会在将其直接应用于大型数据库时遇到问题

根据维基百科,可以使用以下方法减轻此限制

  
      
  • 随机抽样:随机抽样支持大数据集。通常,随机样本适合主存储器。随机抽样涉及准确性和效率之间的权衡。
  •   
  • 分区:基本思路是将样本空间划分为p个分区。每个分区包含n / p个元素。第一遍对每个分区进行部分聚类,直到最终簇数减少到某个常数q≥1的n / pq.n / q上的第二次聚类传递部分地聚类分区。对于第二遍,仅存储代表点,因为在计算合并群集的代表点之前,合并过程仅需要先前群集的代表点。对输入进行分区可缩短执行时间。
  •   
  • 在磁盘上标记数据:仅给出k个集群的代表点,其余数据点也分配给集群。为此,选择每个k簇的随机选择的代表点的一小部分,并将数据点分配给包含最接近它的代表点的簇。
  •