肘曲线在K均值中找到K的可靠性如何?

时间:2018-09-26 09:41:02

标签: python r cluster-analysis k-means word2vec

因此,我尝试使用Elbow曲线在K均值聚类中找到最佳“ K”(聚类数)的值。

对数据集中的文本列(1467行)的平均向量(使用Word2Vec)进行了聚类。但是查看我的文本数据,我可以清楚地发现可以将数据分组为3个以上的组。

我读到推理是在保持平方误差总和(SSE)低的同时,取k较小的值。有人可以告诉我弯头曲线的可靠性如何吗? 另外,如果有什么我想念的。

附加肘曲线以供参考。我还尝试将其绘制到多达70个群集,以进行探索。enter image description here

enter image description here

1 个答案:

答案 0 :(得分:1)

“弯头”的定义不明确。那么如何可靠?

您可以通过将数据分成k个簇的预期下降来“标准化”值,这将使可读性更高。 不幸的是,我忘记了它的确切名称.Calinski和Harabasz(1974)的差异比率标准?如果我没记错的话,从本质上来说,这是一个重新命名的版本,使很多更加有意义。