应用错误收集

时间：2014-01-27 12:14:58

标签： statistics cluster-analysis

我正在进行聚类分析。有许多变量彼此相关。我想知道，包含相关变量是否合适？在这种情况下该怎么办？

提前致谢

答案 0 :(得分：3)

首先，显而易见的方法是：

其次，您可能需要查看关联群集，它会尝试识别在数据集中显示不同关联的群集。当您的数据不是全局关联时，白化不会删除这些本地关联。相关聚类旨在发现这些模式。

答案 1 :(得分：0)

如果变量高度相关，建议将其删除。

与聚类算法或链接方法无关，通常要遵循的一件事是找到点之间的距离。保持高度相关的变量除了给它们更多的东西之外，在计算两点之间的距离时权重加倍（由于所有变量均被标准化，因此效果通常会加倍）。

简而言之，影响聚类形成的变量强度增加。