我正在进行聚类分析。有许多变量彼此相关。我想知道,包含相关变量是否合适?在这种情况下该怎么办?
提前致谢
答案 0 :(得分:3)
首先,显而易见的方法是:
评估您是否需要所有这些,或者可以遗漏其中一些
通过PCA对您的数据进行Whiten(去相关),这无论如何都是k-means的最佳做法
其次,您可能需要查看关联群集,它会尝试识别在数据集中显示不同关联的群集。当您的数据不是全局关联时,白化不会删除这些本地关联。相关聚类旨在发现这些模式。
答案 1 :(得分:0)
如果变量高度相关,建议将其删除。
与聚类算法或链接方法无关,通常要遵循的一件事是找到点之间的距离。保持高度相关的变量除了给它们更多的东西之外,在计算两点之间的距离时权重加倍(由于所有变量均被标准化,因此效果通常会加倍)。
简而言之,影响聚类形成的变量强度增加。