另一个比Elbow更有用的功能是找到k-clusters

时间:2016-06-11 18:38:57

标签: machine-learning data-mining k-means

我尝试在机器学习中为k-means方法找到合适的k簇。我使用Elbow方法,但它耗时且复杂度高。任何人都可以告诉我另一种方法来取代它。非常感谢

1 个答案:

答案 0 :(得分:4)

可用于评估群集结果的指标是silhouette coefficient。该值基本上计算:

silhouette coefficient = 1 - (intra-cluster cohesion) / (inter-cluster separation)

值范围从-1到+1,但通常您希望值接近1.0。因此,如果您运行聚类算法(例如k-means或层次聚类)以生成3个聚类,则可以调用剪影库来计算轮廓系数值,例如: 0.50。如果再次运行算法以生成4个聚类,则可以计算另一个轮廓系数值,例如: 0.55。然后,您可以得出结论,4个簇是更好的聚类,因为它具有更高的轮廓系数。

下面是一个示例数据集,其中我使用R在二维空间中创建了三个不同的集群。注意:真实世界的数据永远不会看起来很干净,集群之间有这种明显的分离。甚至像Fisher的虹膜数据集这样的简单数据在标记的簇之间也有重叠。

enter image description here

然后,您可以使用R的轮廓库来计算轮廓系数。 (可以找到更多信息at the STHDA website。)下面是剪影信息的图表。您想要的一个指标位于左下角,即“平均轮廓宽度:xxx”。该值是所有水平条的平均值。

这是K = 2簇的轮廓系数。

plot(silhouette(kmeans(df, centers=2)$cluster, dist(df)))

enter image description here

这是K = 3簇的轮廓系数。

plot(silhouette(kmeans(df, centers=3)$cluster, dist(df)))

enter image description here

这是K = 4簇的轮廓系数。

plot(silhouette(kmeans(df, centers=4)$cluster, dist(df)))

enter image description here

通过查看轮廓系数,您可以得出结论,K = 3个聚类是最佳聚类,因为它具有最高的轮廓系数。

您可以通过简单地扫描多个K值候选(例如,在2到10之间),同时跟踪找到的最高轮廓系数,以编程方式找到最佳K值。下面我已经完成了这一点,同时还建立了一个剪影系数(y轴)与K(x轴)的关系图。输出说:

  

最佳剪影系数= 0.888926发生在k = 3

enter image description here

library(cluster) # for silhouette
library(ggplot2) # for ggplot
library(scales) # for pretty_breaks


# Create sample 2-D data set with clusters around the points (1,1), (2,4), and (3,1)
x<- c(rnorm(n=25, mean=1,sd=.1), rnorm(n=25,mean=2,sd=.1),rnorm(n=25,mean=3,sd=.2))
y<- c(rnorm(n=25, mean=1,sd=.1), rnorm(n=25,mean=4,sd=.1),rnorm(n=25,mean=1,sd=.2))

df <- data.frame(x=x, y=y)

xMax <- max(x)
yMax <- max(y)
print(ggplot(df, aes(x,y)) + geom_point() + xlim(0, max(xMax, yMax)) + ylim(0, max(xMax,yMax)))


# Use the Iris data set.
#df <- subset(iris, select=-c(Species))
#df <- scale(df)


# Run through multiple candidate values of K clusters.

xValues <- c() # Holds the kvalues (x-axis)
yValues <- c() # Holds the silhouette coefficient values (y-axis)
bestKValue <- 0
bestSilhouetteCoefficient <- 0

kSequence <- seq(2, 5)

for (kValue in kSequence) {

    xValues <- append(xValues, kValue)
    kmeansResult <- kmeans(df, centers=kValue, nstart=5)
    silhouetteResult <- silhouette(kmeansResult$cluster, dist(df))
    silhouetteCoefficient <- mean(silhouetteResult[,3])
    yValues <- append(yValues, silhouetteCoefficient)

    if (silhouetteCoefficient > bestSilhouetteCoefficient) {
        bestSilhouetteCoefficient <- silhouetteCoefficient
        bestKValue <- kValue
    }
}

# Create a dataframe for ggplot to plot the accumulated silhouette values.
dfSilhouette <- data.frame(k=xValues, silhouetteCoefficient=yValues)

# Create the ggplot line plot for silhouette coefficient.
silhouettePlot<- ggplot(data=dfSilhouette, aes(k)) +
    geom_line(aes(y=silhouetteCoefficient)) +
    xlab("k") +
    ylab("Average silhouette width") +
    ggtitle("Average silhouette width") +
    scale_x_continuous(breaks=pretty_breaks(n=20)) 

print(silhouettePlot)

printf <- function(...) cat(sprintf(...))
printf("Best Silhouette coefficient=%f occurred at k=%d", bestSilhouetteCoefficient, bestKValue )

请注意,我使用了答案here中的printf函数。

与您有关的问题是here