SPSS - 在因子分析后使用K-means聚类

时间:2015-05-21 09:41:48

标签: spss factor-analysis k-means

我是一名开发人员,负责研究如何收集使用SPSS的先前结果,因此我们可以使用一些新数据重复该过程。我们不能问那些进行原始分析的人,因为他遗憾地不再和我们在一起了,所以我不知道他做了什么。

我不是统计学家,也不需要了解所涉及的原则。我真的只需要知道要导航到哪些菜单项。

我们做了一项调查,询问了10,000人的很多问题。这些问题中有15个的子集正在用于分析。

我知道进行因子分析是为了将数据减少到4组。然后使用K均值聚类来找到聚类中心。这就是我现在所做的。

我已经研究了如何进行因子分析以获得与我在数据库中的数据相匹配的组件得分系数矩阵。这是通过分析>完成的。尺寸减小>因子。然后我从" Extract"中选择了固定数量的因子(4)。部分," Varimax"旋转"旋转"部分并检查"显示因子得分系数矩阵"在"分数"部分。

这给出了这样的数据:

Matrix   Value 1   Value 2   Value 3   Value 4
Q1       -0.0756   0.2134    -0.0245   -0.1236
Q2       ...       ...       ...       ...
Q3       ...       ...       ...       ...
...

我不知道如何继续进行k-means聚类。

我在数据库中的结果如下所示:

Cluster centers   Value 1   Value 2   Value 3   Value 4   Value 5
FAC1_1            -0.8373   -0.5766   0.2100    1.3499    0.2940
FAC2_1            ...       ...       ...       ...       ...
FAC3_1            ...       ...       ...       ...       ...
FAC4_1            ...       ...       ...       ...       ...

现在,我知道可以使用Analyze>对原始数据集进行k-means聚类。分类> K-means Cluster,但我不知道如何参考我已经完成的因子分析。

有人可以让我了解如何使用SPSS创建这些集群中心吗?

4 个答案:

答案 0 :(得分:4)

在FACTOR分析的GUI(分析>维度缩减>因子)中,您有一个子对话框"分数",确保"另存为变量"检查。

这将保存数据中的因子分数,即变量FAC1_1,FAC2_1,FAC3_1,FAC4_1。

然后,您需要在K-means GUI中添加这些变量作为输入变量。

最好用语法设置你的工作,所以如果有其他人想要复制你的工作,他们可以这样做(理想情况下你的前任也应该把他的面包屑留在语法文件中。我会尽一切努力如果存在远程可能性,则找到该文档,文件扩展名为.sps。

以下是您如何设置语法以及他/她的工作原理:

/* Replicate the factor analysis (four factors) and save the factor score variables */.
FACTOR
  /VARIABLES < INPUT THE 15 VARIABLES HERE >
  /MISSING LISTWISE 
  /ANALYSIS < INPUT THE 15 VARIABLES HERE >
  /PRINT EXTRACTION ROTATION FSCORE
  /FORMAT SORT BLANK(.10)
  /PLOT ROTATION
  /CRITERIA FACTORS(4) ITERATE(25)
  /EXTRACTION PC
  /CRITERIA ITERATE(25)
  /ROTATION VARIMAX
  /SAVE REG(ALL)
  /METHOD=CORRELATION.

 /* Replicate the clustering using factor scores as inputs, generating 5 segments */.
QUICK CLUSTER FAC1_1 FAC2_1 FAC3_1 FAC4_1
  /MISSING=LISTWISE
  /CRITERIA=CLUSTER(5) MXITER(10) CONVERGE(0)
  /METHOD=KMEANS(NOUPDATE)
  /SAVE CLUSTER (Seg5)
  /PRINT INITIAL.

/* Check centroids match*/.
MEANS FAC1_1 FAC2_1 FAC3_1 FAC4_1 BY Seg5 /CELLS MEAN.

如果您可以复制FACTOR得分变量以完全匹配,那么这是一个好的开始,如果质心不匹配那么,如果因子得分匹配,那么它只能/最有可能是因为该段作业现在不同了。尽管如果案例排序与以前不同,使用相同的输入/方法,K-Means QUICK CLUSTER可能并且很可能由于随机起点而产生不同的分段分配。

我不知道这一点,但原则上这些是他/她可能采取的步骤。

答案 1 :(得分:1)

我对我的一个项目做了同样的分析。首先进行因子分析,一旦你能够从因子分析中提取出大量的方差,试着保存因子得分(在SPSS中)。

要保存因子分数,请转至分析 - &gt;降维 - &gt;因子 - &gt;分数 - &gt;保存为变量。

在保存分数时,将根据组件数在“变量”视图中创建新变量。

在您能够保存因子得分后,转到Analyse-&gt; Classify-&gt; K-Means并选择新变量(Factors Scores)输入所需的初始簇数,然后确定。

答案 2 :(得分:0)

如果您有权访问完成原始工作的系统,请查找日志文件(通常名为statistics.jnl并保存在Edit&gt; Options&gt; Files下指定的位置)。 如果日记与append选项一起生效,它将包含用户运行的所有命令。

答案 3 :(得分:0)

我正在为一个项目做同样的分析。仅供参考,SPSS提供的两步聚类过程比K-means更强大(Punj&amp; Stewart 1983)。在K-means中,你如何选择K ?!如果你坚持使用K-means,你也可以使用clvalid包来获得最佳的K数。

Punj,G。,&amp; Stewart,D。W.(1983)。营销研究中的聚类分析:回顾和应用建议。营销研究杂志,134-148。