使用对计数f-measure评估分层聚类

时间:2014-02-22 16:16:56

标签: artificial-intelligence data-mining cluster-analysis hierarchical-clustering

情况如下:

我有一个文档数据集,我根据其主题手动分配给(地面)群集。然后我使用Hierarchical Agglomerative Clustering(HAC)自动聚类同一个数据集。我现在正试图使用​​配对计数f测量来评估HAC集群(如表征和评估相似性度量中所述) 对于Darius Pfitzner,Richard Leibbrandt&大卫鲍尔斯)。

然而,我面临的问题是我的手动群集产生了扁平群集(所以群集之间没有任何关系),而HAC发现的群集是分层的。因此,在查看树形图时,根据您选择的深度(水平线),您有不同数量的聚类(在深度0(根节点),您只有1个聚类;在MAX深度,您的聚类数等于数字您的数据集中的元素)。

所以,我现在的问题是:

  • 我是否需要选择深度(以便我有一组固定的聚类)才能使用f计量对(或者我错过了什么?)。
  • 如果是这样,我用什么标准来确定这个深度?

1 个答案:

答案 0 :(得分:2)

配对计量措施是为无重叠平面分区而设计的。

如果您尝试为重叠或分层结果计算它们,您将很容易获得[0;1]范围之外的值;所以这些方法显然不起作用。

所以是的,您必须以某种方式切割树(例如,在特定高度;或者为了获得特定数量的簇),以便能够使用此评估度量。

最近有关如何从层次聚类结果(无论是来自链接聚类,OPTICS还是HDBSCAN)中提取扁平化的建议可以在这里找到:

  

从层次结构中半监督和无监督最优提取群集的框架
  R. J. G. B. Campello,D。Moulavi,A。Zimek,J。Sander
  数据挖掘与知识发现,27(3):344-371,2013。

但我还没有用过。听起来非常有用,并且在我的阅读清单上。