我正在对最重要的组件进行Clusteranalysis。 为了找到簇的数量,我应用了Calinski Harabasz指数。我有两个问题: 我是否需要在群集之前规范化组件。就方差表达组件的重要性而言,我还没有做到这一点。 关于CH索引,我是在原始数据上计算它还是在pca函数的输出上计算它?我试着澄清一下:
pca <- prcomp(data_scaled)
pca$x
这里我使用pca $ x进行聚类分析。我应该使用data_scaled数据集还是pca $ x数据集来计算CH-index?