我使用k-means算法来聚类我的数据。 我有5千个样本。 (我的每个样本都是关于客户的。分析客户价值我将根据4个行为特征对它们进行聚类。) 使用欧几里德度量和Pearson相关计算距离。
我需要知道
我不知道欧氏距离是计算距离或皮尔森相关性的正确方法吗? 我使用轮廓来验证我的群集。当我使用Pearson相关时,轮廓值比我使用欧几里德度量时更多。 这是否意味着Pearson相关性更适合距离度量?
答案 0 :(得分:0)
它基于方差最小化,对应于(平方)欧几里德距离。
通过Peason相关性,它将会严重失败。
有关k-means如何与Pearson严重失败的示例,请参阅此答案:
https://stackoverflow.com/a/21335448/1060350
简短摘要: 意味着不适用于Pearson ,但k-means基于计算方法。使用PAM或使用类固醇的类似方法。