选择k均值聚类模型的适当相似性度量

时间:2014-08-03 21:40:14

标签: cluster-analysis distance k-means unsupervised-learning

我使用k-means算法来聚类我的数据。 我有5千个样本。 (我的每个样本都是关于客户的。分析客户价值我将根据4个行为特征对它们进行聚类。) 使用欧几里德度量和Pearson相关计算距离。

我需要知道

我不知道欧氏距离是计算距离或皮尔森相关性的正确方法吗? 我使用轮廓来验证我的群集。当我使用Pearson相关时,轮廓值比我使用欧几里德度量时更多。 这是否意味着Pearson相关性更适合距离度量?

1 个答案:

答案 0 :(得分:0)

k-means不支持任意距离。

它基于方差最小化,对应于(平方)欧几里德距离。

通过Peason相关性,它将会严重失败。

有关k-means如何与Pearson严重失败的示例,请参阅此答案:

https://stackoverflow.com/a/21335448/1060350

简短摘要: 意味着不适用于Pearson ,但k-means基于计算方法。使用PAM或使用类固醇的类似方法。