我有一个关于聚类分析的概念性问题。 我有700,000个样本和7个变量的空间。
如何证明使用所有(不相关)变量构建的聚类模型比单独采用7个变量的7个单变量模型具有更好的聚类能力?
换句话说,我想比较质心周围点的总方差,
我试图比较SSE图。联合模型的结果是SSE曲线远高于7单变量模型曲线。
如此之多,我确信在我的推理中存在概念问题。我怀疑7D维度空间中的距离与1D空间中的距离不可比。我尝试在群集之前缩小所有变量的MinMax。但我仍然有同样的问题。也许SSE不是我应该使用的指标?
但是,如果不是SSE,我应该使用什么其他指标来证明合取模型导致质心周围点的方差较小?
感谢您的帮助
PS:我试图使用Silhouette系数。我也有同样的问题。我相信我无法比较来自不同维度空间的Silhouette系数。