machine-learning - 聚类评估-评估系统结果

我有一个黄金标准集群和一个系统结果集群，如下所示：

 gold_clusters={cluster1={A,B}, cluster2={C,D}, cluster3={E,F}}

 system_result={cluster1={A,B,E}, cluster2{C}, cluster3={D}, cluster3={F}}

我正在尝试评估系统结果，但是迷失了所有可用的聚类评估指标，例如标准F1，bCubed和ARI。您为此推荐哪种评估指标？

我是否应该对金标准群集进行迭代，找到最相似的群集并计算F1，然后取总体平均值？外部评估又如何呢（即对生成的簇数惩罚系统）？

帮助我感到困惑吗？