我正在开发一种算法,可以猜测k是否为kmeans聚类。我想我正在寻找一个可以用作比较的数据集,或者可能是一些数据集,其中集群的数量是“已知的”,所以我可以看到我的算法在猜测K时是如何做的。
答案 0 :(得分:0)
我首先检查UCI存储库中的数据集: http://archive.ics.uci.edu/ml/datasets.html?format=&task=clu&att=&area=&numAtt=&numIns=&type=&sort=nameUp&view=table
我相信标签中有一些。
文章聚类数据集经常在论文中用作基线,例如20newsgroups: http://qwone.com/~jason/20Newsgroups/
另一个很棒的方法(我的论文主席总是提倡的方法)是构建自己的小例子数据集。解决这个问题的最好方法是从小处着手,尝试只能用图形表示的两个或三个变量,然后自己标记集群。
小型自制数据集的附加好处是您知道答案并且非常适合调试。
答案 1 :(得分:0)
既然您专注于k
- 意味着,您是否考虑过使用各种指标(Silhouette,Davies-Bouldin等)来找到最佳k
?
实际上,“最佳”k可能不是一个好的选择。大多数情况下,人们确实想要选择更大的k,然后更详细地分析生成的集群/原型,以便从多个k-means分区中构建集群。
答案 2 :(得分:0)
iris flower dataset是一个很好的开始,这个群集可以很好地工作。
下载here