我正在尝试在SPSS中进行聚类分析。在R中,我们可以使用轮廓图来确定最佳聚类数。
如何使用SPSS查找最佳群集数。
PS。我是SPSS的新手。
答案 0 :(得分:1)
如果这正是您所追求的,则可以使用STATS CLUS SIL
命令生成轮廓图和分数。
主要使用默认值的示例语法如下所示:
STATS CLUS SIL
CLUSTER=clus_var /* var w cluster classifications */
VARIABLES=pred_var1 TO pred_var10 /* vars used to form clusters */
NEXTBEST=nb_clus_var /* output var. holds next best classifications */
SILHOUETTE=s_value /* output var. holds silhouette scores */
DISSIMILARITY=EUCLID /* make sure this matches measure in kmeans */
MINKOWSKIPOWER=2
/OPTIONS MISSING=RESCALE RENUMBERORDINAL=NO
/OUTPUT HISTOGRAM=YES ORIENTATION=HORIZONTAL THREEDBAR=YES THREEDCOUNTS=NO .
可能有用的链接:
IBM: Using the silhouette procedure to evaluate kmeans
stackoverflow: How to visualize the effect of running means algorithm in SPSS
Stats.StackExchange: How to Calculate silhouette coefficient in SPSS for clustered data set?
另一方面,您还可以考虑将DISCRIMINANT
命令用作评估群集独特性的另一种工具。
DISCRIMINANT
/GROUPS=clus_var4 (1 4) /* assumes 4 cluster classifications */
/VARIABLES=pred_var1 TO pred_var10 /* vars used to form clusters */
/ANAL all
/METHOD = MAHAL
/PRIORS SIZE
/HISTORY = STEP
/ROTATE struct
/STATISTICS = CROSSVALID COEFF
/CLASSIFY = NONMISSING POOLED .
您可以查看输出分类统计数据(交叉验证),以了解预测的聚类分类与实际分类匹配的频率。