应用错误收集

我正在对最重要的组件进行Clusteranalysis。为了找到簇的数量，我应用了Calinski Harabasz指数。我有两个问题：我是否需要在群集之前规范化组件。就方差表达组件的重要性而言，我还没有做到这一点。关于CH索引，我是在原始数据上计算它还是在pca函数的输出上计算它？我试着澄清一下：

pca <- prcomp(data_scaled)
pca$x

这里我使用pca $ x进行聚类分析。我应该使用data_scaled数据集还是pca $ x数据集来计算CH-index？

我使用哪个数据集来计算Calinski Harabasz指数？

0 个答案: