我使用k-means和Euclidian距离算法来聚类数据(iris.csv)。 但是,我不能将它们全部集中到正确的组中,错误组中有一些数据。
所以,我只是想知道是否可以将所有数据100%集中到正确的组中?
我脑海中的另一个问题是选择k的最佳标准是什么?
感谢您的帮助。
答案 0 :(得分:0)
通常使用聚类算法是指您实际上不知道给定集合的正确组是什么。即使您的算法确实正确地聚集了来自给定训练集的所有数据,但仍然不意味着它将正确地聚类任何数据。此外,您应该尽量避免过度拟合示例数据,因为这通常会降低性能。
至于选择k - 有几种算法,最好的算法可能因你试图解决的问题而有所不同。
答案 1 :(得分:0)
K-表示倾向于创建相同大小的凸簇。如果您的群集具有非常不同的大小或具有不规则的形状,则其他算法可能具有更好的性能。 http://en.m.wikipedia.org/wiki/Cluster_analysis#Clustering_algorithms