使用相关变量进行聚类

时间:2014-01-27 12:14:58

标签: statistics cluster-analysis

我正在进行聚类分析。有许多变量彼此相关。我想知道,包含相关变量是否合适?在这种情况下该怎么办?

提前致谢

2 个答案:

答案 0 :(得分:3)

首先,显而易见的方法是:

  • 评估您是否需要所有这些,或者可以遗漏其中一些

  • 通过PCA对您的数据进行Whiten(去相关),这无论如何都是k-means的最佳做法

其次,您可能需要查看关联群集,它会尝试识别在数据集中显示不同关联的群集。当您的数据不是全局关联时,白化不会删除这些本地关联。相关聚类旨在发现这些模式。

答案 1 :(得分:0)

如果变量高度相关,建议将其删除。

与聚类算法或链接方法无关,通常要遵循的一件事是找到点之间的距离。保持高度相关的变量除了给它们更多的东西之外,在计算两点之间的距离时权重加倍(由于所有变量均被标准化,因此效果通常会加倍)。

简而言之,影响聚类形成的变量强度增加。