我正在为ELKI elki-bundle-0.7.1提供类别标签
它提供了很多统计数据,例如下面但我无法找到有关它们的信息?
我知道f1测量,精确度和召回但是如何有多种措施?他们应该根据聚类结果计算出来吗?
谢谢
Jaccard 0.3851744186046512
F1-Measure 0.5561385099685204
Precision 0.6463414634146342
Recall 0.4880294659300184
Rand 0.8368055555555556
ARI 0.458537539334965
FowlkesMallows 0.5616348272664993
NMI Joint 0.5758289911830176
NMI Sqrt 0.7309481146561948
F1-Measure 0.7033781601851384
Recall 0.6901589423648247
Precision 0.7171136653895275
F1-Measure 0.7702702702702702
Purity 0.7916666666666667
Inverse Purity 0.7499999999999998
F1-Measure 0.6312576312576313
Precision 0.6527777777777778
Recall 0.6111111111111112
Mean +-0.2958 0.703636303877176
答案 0 :(得分:0)
请参阅ELKI文档。我们实施了许多评估措施。以下是http://elki.dbs.ifi.lmu.de/wiki/RelatedPublications
列表中的摘录剪影:
P上。 J. Rousseeuw
剪影:对聚类分析的解释和验证的图形辅助 在:计算与应用数学期刊,第20卷
兰德指数:
兰德,W。M. 聚类方法评估的客观标准 在:美国统计协会杂志,卷。 66 Issue 336
Fowlkes-锦葵:
Fowlkes,E.B。和Mallows,C.L。
一种比较两个层次聚类的方法
BCubed:
一个。 Bagga和B. Baldwin
使用向量空间模型的基于实体的跨文档核心参考 在:Proc。 COLING '98第17届计算语言学国际会议论文集
编辑距离:
Pantel,P。和Lin,D。
文件聚类与委员会
在:Proc。第25届ACM SIGIR信息检索研究与发展会议
基于熵的措施:
Meilă,M。
通过信息的变化比较聚类 在:学习理论和内核机器Nguyen,X。V.和Epps,J。和Bailey,J。
聚类比较的信息理论措施:是否需要对机会进行修正?
在:Proc。 ICML '09第26届机器学习国际会议论文集
Set-Matching纯度:
Steinbach,M。和Karypis,G。和Kumar,V 文档聚类技术的比较
在:KDD文本挖掘研讨会,2000年电子。 Amigó,J。Gonzalo,J。Artiles和F. Verdejo 基于形式约束的外在聚类评价指标的比较 在:Inf。检索,卷。 12,不。 5
Meilă,M
比较聚类
在:华盛顿大学,西雅图,技术报告418,2002Zhao,Y。和Karypis,G。
文档聚类的标准函数:实验和分析
在:明尼苏达大学,计算机科学系,技术报告01-40,2001
C-指数:
升。 J. Hubert和J. R. Levin
评估自由回忆中分类聚类的一般统计框架 在:心理公报,卷。 83(6)
协调对:
F。 B. Baker和L. J. Hubert
测量分层聚类分析的功效
在:美国统计学会杂志,70(349)F。 J. Rohlf
比较分类的方法
在:生态学和系统学年度回顾
戴维斯-尔丁:
d。 L. Davies和D. W. Bouldin
群集分离措施
在:IEEE交易模式分析和机器智能PAMI-1(2)
PBM:
微米。 K. Pakhira和S. Bandyopadhyay,以及U. Maulik 清晰和模糊聚类的有效性指数
在:模式识别,37(3)
方差 - 比率标准:
R上。 B. Calinski和J. Harabasz
聚类分析的枝状方法
在:统计通信 - 理论与方法,3(1)
我们也有DBCV,但代码未经审核和合并。
我个人的建议是使用调整后的兰德指数,因为调整机会很好。 ARI小于0意味着结果比随机差。几乎所有其他措施,即使是随机的结果也会得分。