ELKI聚类测量它们的含义是什么?

时间:2016-04-06 00:27:24

标签: statistics elki

我正在为ELKI elki-bundle-0.7.1提供类别标签

它提供了很多统计数据,例如下面但我无法找到有关它们的信息?

我知道f1测量,精确度和召回但是如何有多种措施?他们应该根据聚类结果计算出来吗?

谢谢

配对计数措施?

Jaccard 0.3851744186046512
F1-Measure 0.5561385099685204
Precision 0.6463414634146342
Recall 0.4880294659300184
Rand 0.8368055555555556
ARI 0.458537539334965

FowlkesMallows 0.5616348272664993

基于熵的措施?

NMI Joint 0.5758289911830176
NMI Sqrt 0.7309481146561948

基于BCubed的措施?

F1-Measure 0.7033781601851384
Recall 0.6901589423648247
Precision 0.7171136653895275

基于匹配的度量?

F1-Measure 0.7702702702702702
Purity 0.7916666666666667
Inverse Purity 0.7499999999999998

编辑距离测量?

F1-Measure 0.6312576312576313
Precision 0.6527777777777778
Recall 0.6111111111111112

基尼措施?

Mean +-0.2958 0.703636303877176

1 个答案:

答案 0 :(得分:0)

请参阅ELKI文档。我们实施了许多评估措施。以下是http://elki.dbs.ifi.lmu.de/wiki/RelatedPublications

列表中的摘录

剪影:

  

P上。 J. Rousseeuw
  剪影:对聚类分析的解释和验证的图形辅助   在:计算与应用数学期刊,第20卷

兰德指数:

  兰德,W。M.   聚类方法评估的客观标准   在:美国统计协会杂志,卷。 66 Issue 336

Fowlkes-锦葵:

  

Fowlkes,E.B。和Mallows,C.L。
  一种比较两个层次聚类的方法

BCubed:

  

一个。 Bagga和B. Baldwin
  使用向量空间模型的基于实体的跨文档核心参考   在:Proc。 COLING '98第17届计算语言学国际会议论文集

编辑距离:

  

Pantel,P。和Lin,D。
  文件聚类与委员会
  在:Proc。第25届ACM SIGIR信息检索研究与发展会议

基于熵的措施:

  

Meilă,M。
  通过信息的变化比较聚类   在:学习理论和内核机器

     

Nguyen,X。V.和Epps,J。和Bailey,J。
  聚类比较的信息理论措施:是否需要对机会进行修正?
  在:Proc。 ICML '09第26届机器学习国际会议论文集

Set-Matching纯度:

  

Steinbach,M。和Karypis,G。和Kumar,V   文档聚类技术的比较
  在:KDD文本挖掘研讨会,2000年

     

电子。 Amigó,J。Gonzalo,J。Artiles和F. Verdejo   基于形式约束的外在聚类评价指标的比较   在:Inf。检索,卷。 12,不。 5

     

Meilă,M
  比较聚类
  在:华盛顿大学,西雅图,技术报告418,2002

     

Zhao,Y。和Karypis,G。
  文档聚类的标准函数:实验和分析
  在:明尼苏达大学,计算机科学系,技术报告01-40,2001

C-指数:

  

升。 J. Hubert和J. R. Levin
  评估自由回忆中分类聚类的一般统计框架   在:心理公报,卷。 83(6)

协调对:

  

F。 B. Baker和L. J. Hubert
  测量分层聚类分析的功效
  在:美国统计学会杂志,70(349)

     

F。 J. Rohlf
  比较分类的方法
  在:生态学和系统学年度回顾

戴维斯-尔丁:

  

d。 L. Davies和D. W. Bouldin
  群集分离措施
  在:IEEE交易模式分析和机器智能PAMI-1(2)

PBM:

  

微米。 K. Pakhira和S. Bandyopadhyay,以及U. Maulik   清晰和模糊聚类的有效性指数
  在:模式识别,37(3)

方差 - 比率标准:

  

R上。 B. Calinski和J. Harabasz
  聚类分析的枝状方法
  在:统计通信 - 理论与方法,3(1)

我们也有DBCV,但代码未经审核和合并。

我个人的建议是使用调整后的兰德指数,因为调整机会很好。 ARI小于0意味着结果比随机差。几乎所有其他措施,即使是随机的结果也会得分。