我有77个变量和27,000个观察值。我的目标是从中找到有意义的集群。我发现解释聚类具有挑战性!!
到目前为止,我尝试执行PCA(使用proc Princomp),这使我有了缩小尺寸的想法。然后,我在Fastclus操作中使用了相关的PC-经过几次迭代后,我发现了一个输出,该输出产生了所需数量的有效簇。
然后,我用产生的簇设置了原始输入变量,因为我认为这将使我能够从原始变量的角度理解簇,即使PC用于派生簇。
我的问题是如何配置集群以了解其业务意义(解释)-我尝试使用Proc Tabulate,但没有任何意义,因为我有77个原始变量要与集群进行比较。
下一步应该怎么做-我应该尝试检查多重共线性并删除尽可能多的变量,还是有一种更简单的方法?任何形式的反馈或解决此问题的技巧,我将不胜感激。
提前谢谢