我使用哪个数据集来计算Calinski Harabasz指数?

时间:2017-07-19 09:53:23

标签: r cluster-analysis pca

我正在对最重要的组件进行Clusteranalysis。 为了找到簇的数量,我应用了Calinski Harabasz指数。我有两个问题: 我是否需要在群集之前规范化组件。就方差表达组件的重要性而言,我还没有做到这一点。 关于CH索引,我是在原始数据上计算它还是在pca函数的输出上计算它?我试着澄清一下:

pca <- prcomp(data_scaled)
pca$x

这里我使用pca $ x进行聚类分析。我应该使用data_scaled数据集还是pca $ x数据集来计算CH-index?

0 个答案:

没有答案