ELKI - 聚类统计

时间:2014-04-05 23:18:08

标签: cluster-analysis data-mining elki

当在ELKI 0.5中通过聚类算法分析数据集时,程序产生许多统计数据:Jaccard索引,F1-Measures等。为了计算这些统计数据,必须有2个聚类来比较。与?

相比,算法创建的聚类是什么?

1 个答案:

答案 0 :(得分:1)

自动评估(请注意,可以手动配置评估!)基于数据集中的标签。至少在当前版本中(你为什么使用0.5而不是0.6.0?)它只应自动评估如果它在数据集中找到标签。

我们目前尚未发布内部措施。有一些实现,例如evaluation/clustering/internal/EvaluateSilhouette.java,其中一些将在下一个版本中。

在我的实验中,内部评估措施极具误导性。例如,在Silhouette系数上,标记的“解决方案”通常甚至会对负轮廓系数进行评分(即比根本没有聚类更差)。

此外,这些措施不具备可扩展性。剪影系数以O(n ^ 2)计算;这通常会使这个评估比实际的聚类更昂贵!

我们非常感谢贡献!

非常欢迎您向ELKI贡献您最喜爱的评估指标,与他人分享。