cluster-analysis - 聚类的最小描述长度

时间：2019-02-02 14:38:13

标签： cluster-analysis

我想知道如何计算最小描述长度（MDL）来评估聚类结果。

我正在看一些关于聚类算法的论文，其中有一篇提到MDL作为衡量K均值给出的聚类是否遵循高斯分布的一种度量。

根据该论文，MDL由以下内容给出：

MDL（K）= -log [p_y（y / K）] + 1/2 * L * log（n）
L = K（1 + n +（n + 1）n / 2）-1

，其中K是簇数， n 是数据值的总数， y 是 n 维向量

我知道上面的解释可能不足以回答这个问题，但是以上是我现在所拥有的全部信息，并且我不知道如何重现本文介绍的计算。

我希望您能获得有关如何计算MDL以评估聚类结果的解释。

答案 0 :(得分：0)

MDL计算始终需要有关如何编码数据的一些假设。这就是MDL论文经常出错的地方，因为它们将新的编码与作为基准的次质量编码进行比较，以获取可观的收益……无论如何，此值可能是合法的，但是如果没有上下文和适当的定义，这很难说出来。

用k均值近似数据时，必须存储：