应用错误收集

时间：2013-07-31 19:33:59

标签： machine-learning cluster-analysis

我正在开发一种算法，可以猜测k是否为kmeans聚类。我想我正在寻找一个可以用作比较的数据集，或者可能是一些数据集，其中集群的数量是“已知的”，所以我可以看到我的算法在猜测K时是如何做的。

答案 0 :(得分：0)

我相信标签中有一些。

文章聚类数据集经常在论文中用作基线，例如20newsgroups： http://qwone.com/~jason/20Newsgroups/

另一个很棒的方法（我的论文主席总是提倡的方法）是构建自己的小例子数据集。解决这个问题的最好方法是从小处着手，尝试只能用图形表示的两个或三个变量，然后自己标记集群。

小型自制数据集的附加好处是您知道答案并且非常适合调试。

答案 1 :(得分：0)

既然您专注于k - 意味着，您是否考虑过使用各种指标（Silhouette，Davies-Bouldin等）来找到最佳k？

实际上，“最佳”k可能不是一个好的选择。大多数情况下，人们确实想要选择更大的k，然后更详细地分析生成的集群/原型，以便从多个k-means分区中构建集群。

答案 2 :(得分：0)

iris flower dataset是一个很好的开始，这个群集可以很好地工作。

下载here