当在ELKI 0.5中通过聚类算法分析数据集时,程序产生许多统计数据:Jaccard索引,F1-Measures等。为了计算这些统计数据,必须有2个聚类来比较。与?
相比,算法创建的聚类是什么?答案 0 :(得分:1)
自动评估(请注意,可以手动配置评估!)基于数据集中的标签。至少在当前版本中(你为什么使用0.5而不是0.6.0?)它只应自动评估如果它在数据集中找到标签。
我们目前尚未发布内部措施。有一些实现,例如evaluation/clustering/internal/EvaluateSilhouette.java,其中一些将在下一个版本中。
在我的实验中,内部评估措施极具误导性。例如,在Silhouette系数上,标记的“解决方案”通常甚至会对负轮廓系数进行评分(即比根本没有聚类更差)。
此外,这些措施不具备可扩展性。剪影系数以O(n ^ 2)计算;这通常会使这个评估比实际的聚类更昂贵!
非常欢迎您向ELKI贡献您最喜爱的评估指标,与他人分享。