我想使用调整后的兰德指数比较两个分区。
第一个分区包含n个相互独立的群集(无重叠)。
第二个包含m个重叠的簇。
当一个元素存在于2个不同的簇中时,我对其进行两次计数并为其指定两个不同的索引。不适用于ARI。
此插图旨在使问题更清楚:
令S和P为2个分区,其中:
S={CLUSTER1, CLUSTER2}
CLUSTER1={A,B}
CLUSTER2={C}
与S相关联的索引向量为:V1=[1,1,2]
P={Group1, Group2, Group3}
Group1={A}
Group2={A,B}
Group3={B,C}
与P关联的索引向量为:V1=[1,2,2,3,3]
那当然是行不通的。因为除了尺寸问题之外,没有任何顺序。
您有解决此问题的想法吗?
我正在考虑使用P'和S使用P“ ...测试S,其中P'是一个看起来有点像P但没有重叠的分区。例如:P'=[{}, {A,B}, {C}]