我在哪里可以找到一组带有地面实况标签的基准聚类数据集?

时间:2014-03-24 20:28:01

标签: machine-learning dataset cluster-analysis benchmarking hierarchical-clustering

我正在寻找一个带有"基础事实的聚类数据集"一些已知自然聚类的标签,最好具有高维度。

我在这里找到了一些好的候选人(http://cs.joensuu.fi/sipu/datasets/),但只有Glass和Iris数据集有点标签。我还发现了一些生成高斯数据集(SynDECA)的代码。我想要的主要原因是比较一些聚类方法的距离度量。使用外部(外在)评估标准很困难,因为其中许多偏向于欧氏距离;并且有很多可供选择。

谢谢!

2 个答案:

答案 0 :(得分:0)

UCI Machine Learning Repository有很多数据集。

答案 1 :(得分:0)

除了上述的SIPUUCI ML存储库,以下是其他集群基准测试聚合器的列表: