兰德指数比较两个不同标签的大小

时间:2018-07-05 13:15:29

标签: python cluster-analysis

我想使用调整后的兰德指数比较两个分区。
第一个分区包含n个相互独立的群集(无重叠)。
第二个包含m个重叠的簇。
当一个元素存在于2个不同的簇中时,我对其进行两次计数并为其指定两个不同的索引。不适用于ARI。

此插图旨在使问题更清楚:
令S和P为2个分区,其中:

S={CLUSTER1, CLUSTER2} 
CLUSTER1={A,B}
CLUSTER2={C}

与S相关联的索引向量为:V1=[1,1,2]

P={Group1, Group2, Group3}
Group1={A}
Group2={A,B}
Group3={B,C}

与P关联的索引向量为:V1=[1,2,2,3,3]
那当然是行不通的。因为除了尺寸问题之外,没有任何顺序。
您有解决此问题的想法吗?
我正在考虑使用P'和S使用P“ ...测试S,其中P'是一个看起来有点像P但没有重叠的分区。例如:P'=[{}, {A,B}, {C}]

0 个答案:

没有答案