我想知道如何计算最小描述长度(MDL)来评估聚类结果。
我正在看一些关于聚类算法的论文,其中有一篇提到MDL作为衡量K均值给出的聚类是否遵循高斯分布的一种度量。
根据该论文,MDL由以下内容给出:
MDL(K)= -log [p_y(y / K)] + 1/2 * L * log(n)
L = K(1 + n +(n + 1)n / 2)-1
,其中K是簇数, n 是数据值的总数, y 是 n 维向量
我知道上面的解释可能不足以回答这个问题,但是以上是我现在所拥有的全部信息,并且我不知道如何重现本文介绍的计算。
我希望您能获得有关如何计算MDL以评估聚类结果的解释。
答案 0 :(得分:0)
MDL计算始终需要有关如何编码数据的一些假设。这就是MDL论文经常出错的地方,因为它们将新的编码与作为基准的次质量编码进行比较,以获取可观的收益……无论如何,此值可能是合法的,但是如果没有上下文和适当的定义,这很难说出来。
用k均值近似数据时,必须存储: