Question

为什么在聚类方法中使用调整后的兰特指数（ARI）和规范化互信息（NMI）会导致比简单测试得分（如MSE）更好的测量结果？我理解哪个点属于哪个簇在聚类算法中很重要，并且标记是任意的。

Answer 1

你自己回答了 - 没有＆＃34; MSE＆＃34;对于聚类，因为仅当您知道因变量的值时才定义MSE。在聚类中，它不仅被任意分配，而且甚至没有＆＃34;数字＆＃34;的概念，而MSE是回归度量，它对数字而不是类进行操作。现在，为什么不通过简单地计算所有可能的标记排列来使用Accuracy呢？嗯，这几乎就是RandIndex，即使它起源于不同的社会，并且名称不同，它与集群和标签之间的映射密切相关。那么调整兰德指数是什么？除了RandIndex /（几乎）准确性之外，只有一个校正可以告诉您完全随机的分类器的行为。因此，它实际上是由随机分类器的准确性归一化的精度度量的变换。

这些＆＃34;小差异＆＃34;简单地考虑一下事实，该聚类具有一些额外的属性，如：

群集（标签）的数量未先验地给出
你需要对琐碎的模型进行修正，这可能很难轻易弄清楚（对于分类来说，通常很容易说出琐碎模型的准确性）

特别是第一部分很重要，考虑聚类：

clustering   [o o o o][o o o o][o o o o ]
truth        [o o o o  o o o o][o o o o ]

唯一＆＃34;坏事＆＃34;发生的事情是我们将一个类分为两部分。如果我们使用准确度，我们得到75％（因为一半被简单地考虑＆＃34;坏＆＃34;）但如果我们考虑兰特指数，它实际上会分配比以下更高的分数：

clustering   [o][o][o][o][o o o o][o o o o ]
truth        [o  o  o  o  o o o o][o o o o ]

准确度也会产生75％。我认为第一次聚类确实比第二次更好。

换句话说，这些指标与经典的分类指标密切相关，它们只是引入了额外的风格来区分（大多数）具有不同数量的聚类的聚类。这里的主要原因是在聚类中你关心结构，而不是逐点标签。

调整兰特指数（ARI）

1 个答案: