应用错误收集

时间：2014-08-03 21:40:14

标签： cluster-analysis distance k-means unsupervised-learning

我使用k-means算法来聚类我的数据。我有5千个样本。（我的每个样本都是关于客户的。分析客户价值我将根据4个行为特征对它们进行聚类。）使用欧几里德度量和Pearson相关计算距离。

我需要知道

我不知道欧氏距离是计算距离或皮尔森相关性的正确方法吗？我使用轮廓来验证我的群集。当我使用Pearson相关时，轮廓值比我使用欧几里德度量时更多。这是否意味着Pearson相关性更适合距离度量？

答案 0 :(得分：0)

它基于方差最小化，对应于（平方）欧几里德距离。

通过Peason相关性，它将会严重失败。

有关k-means如何与Pearson严重失败的示例，请参阅此答案：

简短摘要： 意味着不适用于Pearson ，但k-means基于计算方法。使用PAM或使用类固醇的类似方法。