我应该使用多少变量来聚类庞大的数据集?

时间:2016-11-15 12:01:23

标签: cluster-analysis spss hierarchical-clustering

我和同一组44名受访者进行了一系列长期调查(不是很多,但我做得不好)。

我需要使用两步分析在SPSS中对样本进行聚类,但实际上有很多变量。由于进行了6份不同的调查问卷,大约有200个定量问题(变量),更不用说定性问题了。

我的第一个问题是:我应该使用所有定量变量来执行聚类分析吗?我阅读的所有手册都为集群解决方案选择了一些选定的变量,而不是全部。

第二个问题是我试图对所有定量数据使用层次聚类,但SPSS通知:

  

警告

     

没有足够的有效案例来执行聚类分析。

...这意味着我拥有的数据集不能用于执行聚类分析......在这种情况下,我该怎么做才能执行聚类分析?

2 个答案:

答案 0 :(得分:1)

这听起来很有问题。你有很多变数。你还没有说过多少个案子,但听起来可能只有44 x 6.这不是一个好的组合。聚类练习的目的是什么?

您可以考虑从定量变量中提取一些主要组件以用于聚类并添加少量其他变量。来自分层聚类过程的消息是警告。

答案 1 :(得分:0)

问题1,

虽然你有200个变量,但某些变量之间可能存在很强的相关性。因此,最佳做法是使用彼此不太相关的变量,以便执行聚类分析。

或者,您可以使用主成分分析等无监督方法来减少数据集的维度并转换为低相关空间。

问题2,

以下链接提供了有关您的SPSS错误的详细说明, http://www-01.ibm.com/support/docview.wss?uid=swg21481097