为什么调整后的兰德指数(ARI)优于兰特指数(RI)以及如何从公式中直观地理解ARI

时间:2018-05-08 15:45:28

标签: machine-learning statistics cluster-analysis

我阅读了有关Rand IndexAdjusted Rand Index的维基百科文章。我可以理解它们是如何以数学方式计算的,并且可以将兰德指数解释为协议对分歧的比例。但我对ARI没有同样的直觉。

This blogpost通过考虑重叠的可能性来解释为什么ARI优于RI。有人可以通过一个例子或直观的解释解释为什么ARI比RI更好。

1 个答案:

答案 0 :(得分:3)

我认为主要的直观点是你已经链接的博客文章中提到的那个,

  

两个随机集如何具有接近1的RI?原因是由于簇的数量。当存在大量聚类时,两组中的一对项目在不同聚类中的可能性更高。这仍然被视为RI中的一致事件。

如果一对元素 ,如果两者都在不同的相应群集中,

RI将其视为“成功”每个分区。

只要增加分区中的簇数,就可以通过随机机会对“成功”这一概念产生不利影响。例如,想象一个包含100个示例的数据集。分区X将其划分为100个不同的子集,每个子​​集具有1个数据点。分区Y将其划分为99个子集,98个,每个子点有一个数据点,1个有两个数据点。

对于这种情况,常规RI看起来几乎是完美的,因为对于随机选择的任意两个点,它们肯定在X中的两个不同子集中,并且它们不在Y中的两个不同子集中的唯一方式是不太可能我们从包含两个项目的特殊第99个子集中提取了两个项目。所以RI将非常接近1(如果我们将数据集大于100,我们可以任意接近1)。

但对于ARI,列联表中的所有n_ij项根据定义将为1或0,这意味着分子必须是负数,表明簇的相似性差(这基本上是由事实驱动的)这些分区所携带的唯一“信息”是Y的一个子集,它有两个数据点...所以如果X不重现那个,那么在某种意义上它在重现由Y表示的关系时非常糟糕。

通过将X视为50个不同的双元素对集合,将Y视为50个不同的双元素对集合的不同集合,可以使这个思想实验更加复杂。然后,RI可以通过随机机会看起来很好,因为大多数时间元素将随机两个不属于同一个双元素子集。只有在X或Y(100个可能的对)中实际上属于一起的对才会受到惩罚,而对于其他(100 choose 2) - 100个剩余对,RI会将它们标记为成功放入X和X中的不同组中Y.同样,只是将数据集设置得更大会使RI越来越多。