因此,我尝试使用Elbow曲线在K均值聚类中找到最佳“ K”(聚类数)的值。
对数据集中的文本列(1467行)的平均向量(使用Word2Vec)进行了聚类。但是查看我的文本数据,我可以清楚地发现可以将数据分组为3个以上的组。
我读到推理是在保持平方误差总和(SSE)低的同时,取k较小的值。有人可以告诉我弯头曲线的可靠性如何吗? 另外,如果有什么我想念的。
答案 0 :(得分:1)
“弯头”的定义不明确。那么如何可靠?
您可以通过将数据分成k个簇的预期下降来“标准化”值,这将使可读性更高。 不幸的是,我忘记了它的确切名称.Calinski和Harabasz(1974)的差异比率标准?如果我没记错的话,从本质上来说,这是一个重新命名的版本,使很多更加有意义。