聚类基线比较,KMeans

时间:2013-07-31 19:33:59

标签: machine-learning cluster-analysis

我正在开发一种算法,可以猜测k是否为kmeans聚类。我想我正在寻找一个可以用作比较的数据集,或者可能是一些数据集,其中集群的数量是“已知的”,所以我可以看到我的算法在猜测K时是如何做的。

3 个答案:

答案 0 :(得分:0)

我首先检查UCI存储库中的数据集: http://archive.ics.uci.edu/ml/datasets.html?format=&task=clu&att=&area=&numAtt=&numIns=&type=&sort=nameUp&view=table

我相信标签中有一些。

文章聚类数据集经常在论文中用作基线,例如20newsgroups: http://qwone.com/~jason/20Newsgroups/

另一个很棒的方法(我的论文主席总是提倡的方法)是构建自己的小例子数据集。解决这个问题的最好方法是从小处着手,尝试只能用图形表示的两个或三个变量,然后自己标记集群。

小型自制数据集的附加好处是您知道答案并且非常适合调试。

答案 1 :(得分:0)

既然您专注于k - 意味着,您是否考虑过使用各种指标(Silhouette,Davies-Bouldin等)来找到最佳k

实际上,“最佳”k可能不是一个好的选择。大多数情况下,人们确实想要选择更大的k,然后更详细地分析生成的集群/原型,以便从多个k-means分区中构建集群。

答案 2 :(得分:0)

iris flower dataset是一个很好的开始,这个群集可以很好地工作。

下载here