聚类的最小描述长度

时间:2019-02-02 14:38:13

标签: cluster-analysis

我想知道如何计算最小描述长度(MDL)来评估聚类结果。

我正在看一些关于聚类算法的论文,其中有一篇提到MDL作为衡量K均值给出的聚类是否遵循高斯分布的一种度量。

根据该论文,MDL由以下内容给出:

  

MDL(K)= -log [p_y(y / K)] + 1/2 * L * log(n)
  L = K(1 + n +(n + 1)n / 2)-1

,其中K是簇数, n 是数据值的总数, y n 维向量

我知道上面的解释可能不足以回答这个问题,但是以上是我现在所拥有的全部信息,并且我不知道如何重现本文介绍的计算。

我希望您能获得有关如何计算MDL以评估聚类结果的解释。

1 个答案:

答案 0 :(得分:0)

MDL计算始终需要有关如何编码数据的一些假设。这就是MDL论文经常出错的地方,因为它们将新的编码与作为基准的次质量编码进行比较,以获取可观的收益……无论如何,此值可能是合法的,但是如果没有上下文和适当的定义,这很难说出来。

用k均值近似数据时,必须存储:

  1. k本身
  2. 记录n个点中的每个点的k位以将点映射到中心
  3. d维的k个向量
  4. 每个点与平均值的偏差。如果您假设较小的偏差更为频繁(高斯),请使用较少的位,而使用较大的偏差