python - 肘曲线在K均值中找到K的可靠性如何？

时间：2018-09-26 09:41:02

标签： python r cluster-analysis k-means word2vec

因此，我尝试使用Elbow曲线在K均值聚类中找到最佳“ K”（聚类数）的值。

对数据集中的文本列（1467行）的平均向量（使用Word2Vec）进行了聚类。但是查看我的文本数据，我可以清楚地发现可以将数据分组为3个以上的组。

我读到推理是在保持平方误差总和（SSE）低的同时，取k较小的值。有人可以告诉我弯头曲线的可靠性如何吗？另外，如果有什么我想念的。

附加肘曲线以供参考。我还尝试将其绘制到多达70个群集，以进行探索。。

答案 0 :(得分：1)

“弯头”的定义不明确。那么如何可靠？

您可以通过将数据分成k个簇的预期下降来“标准化”值，这将使可读性更高。不幸的是，我忘记了它的确切名称.Calinski和Harabasz（1974）的差异比率标准？如果我没记错的话，从本质上来说，这是一个重新命名的版本，使很多更加有意义。