我有来自UCI机器学习库的测试分类数据集,标有。
我正在剥离标签并使用数据来对一些聚类算法进行基准测试,然后我计划使用外部验证方法。我将使用不同的初始配置运行算法,例如50次,然后取平均值。对于50次迭代,算法标记具有不同数字的单个簇的数据点。因为在每次运行中集群标签都可以更改,因为每次迭代可能会有稍微不同的集群分配,如何以某种方式将每个集群重新映射到一个统一编号。
主要思想是通过检查类标签中有多少点与实际标签中的最大值相交,然后根据它进行重新映射来重新映射,但这可能会得到不正确的重映射,因为当类具有更多或更少时相同数量的分数,这是行不通的。
另一个想法是在聚类时保留标签,但使聚类算法忽略它。这样,所有群集数据都将具有标签标签。这是可行的,但我已经有一个基准的集群分配数据要处理,因此我试图避免修改和重新基准测试我的实现(这需要相当长的时间和cpu)的集群分析算法,并包括标签标签向量然后忽略它。
我有什么方法可以从我现在的群集分配中计算平均准确度吗?
修改
我正在研究的领域(元启发式聚类算法)我找不到比较这些索引的论文。比较的论文似乎不正确。任何人都可以指向一篇论文,其中使用这些索引中的任何一个来比较聚类结果吗?
答案 0 :(得分:1)
如果群集的数量不同意,您会怎么做?
不尝试映射群集。
相反,请使用适当的外部验证措施进行群集,这不需要群集的1:1对应关系。有很多,详见维基百科。