是否可以使用k-means将数据聚类到100%正确的组中?

时间:2013-03-20 17:52:38

标签: algorithm k-means

我使用k-means和Euclidian距离算法来聚类数据(iris.csv)。 但是,我不能将它们全部集中到正确的组中,错误组中有一些数据。

所以,我只是想知道是否可以将所有数据100%集中到正确的组中?

我脑海中的另一个问题是选择k的最佳标准是什么?

感谢您的帮助。

2 个答案:

答案 0 :(得分:0)

通常使用聚类算法是指您实际上不知道给定集合的正确组是什么。即使您的算法确实正确地聚集了来自给定训练集的所有数据,但仍然不意味着它将正确地聚类任何数据。此外,您应该尽量避免过度拟合示例数据,因为这通常会降低性能。

至于选择k - 有几种算法,最好的算法可能因你试图解决的问题而有所不同。

答案 1 :(得分:0)

K-表示倾向于创建相同大小的凸簇。如果您的群集具有非常不同的大小或具有不规则的形状,则其他算法可能具有更好的性能。 http://en.m.wikipedia.org/wiki/Cluster_analysis#Clustering_algorithms