鲁棒聚类算法

时间:2013-10-11 19:16:25

标签: machine-learning cluster-analysis unsupervised-learning

说我有物品i1,...,iN

我想以这样一种方式对它们进行聚类:

  1. 如果我运行群集很多次iJ和iK项目在同一群集中结束的概率很高。
  2. 无论群集种子如何,群集和群集成员资格的数量都相对稳定
  3. 是否有众所周知的算法来实现这一目标?

    澄清:

    说我想要3个集群并说:

    • 在现实中 - 1我从i1,i33,i89开始作为群集c1 c2 c3的种子
    • 在现实中 - 2我从i44,i55,i77开始作为群集c1 c2 c3的种子

    我希望两个现实中的结果聚类大致相似

2 个答案:

答案 0 :(得分:2)

我认为hierarchical clustering算法可以满足您的需求。

  1. 对于相同的集合保证了集群一致性,iJ和iK项目在同一集群中结束的概率为1.
  2. 没有种子。您可以通过分析树或使用现有的截断算法(有很多种算法)来选择正确数量的群集。
  3. <强> [编辑]

    事实上,任何deterministic聚类算法都具有这些功能,而不仅仅是层次聚类。

答案 1 :(得分:1)

一种经常看到的使算法在初始化方面更加健壮的策略是引导它。例如,请参阅this paper

另一种选择是预先对数据进行排序,并使用严格确定的算法。