情况如下:
我有一个文档数据集,我根据其主题手动分配给(地面)群集。然后我使用Hierarchical Agglomerative Clustering(HAC)自动聚类同一个数据集。我现在正试图使用配对计数f测量来评估HAC集群(如表征和评估相似性度量中所述) 对于Darius Pfitzner,Richard Leibbrandt&大卫鲍尔斯)。
然而,我面临的问题是我的手动群集产生了扁平群集(所以群集之间没有任何关系),而HAC发现的群集是分层的。因此,在查看树形图时,根据您选择的深度(水平线),您有不同数量的聚类(在深度0(根节点),您只有1个聚类;在MAX深度,您的聚类数等于数字您的数据集中的元素)。
所以,我现在的问题是:
答案 0 :(得分:2)
配对计量措施是为无重叠平面分区而设计的。
如果您尝试为重叠或分层结果计算它们,您将很容易获得[0;1]
范围之外的值;所以这些方法显然不起作用。
所以是的,您必须以某种方式切割树(例如,在特定高度;或者为了获得特定数量的簇),以便能够使用此评估度量。
最近有关如何从层次聚类结果(无论是来自链接聚类,OPTICS还是HDBSCAN)中提取扁平化的建议可以在这里找到:
从层次结构中半监督和无监督最优提取群集的框架
R. J. G. B. Campello,D。Moulavi,A。Zimek,J。Sander
数据挖掘与知识发现,27(3):344-371,2013。
但我还没有用过。听起来非常有用,并且在我的阅读清单上。