查找最佳集群数(在层次集群中)

时间:2018-08-20 20:17:09

标签: spss hierarchical-clustering

我正在尝试在SPSS中进行聚类分析。在R中,我们可以使用轮廓图来确定最佳聚类数。

如何使用SPSS查找最佳群集数。

PS。我是SPSS的新手。

1 个答案:

答案 0 :(得分:1)

如果这正是您所追求的,则可以使用STATS CLUS SIL命令生成轮廓图和分数。

主要使用默认值的示例语法如下所示:

STATS CLUS SIL
 CLUSTER=clus_var /* var w cluster classifications */
 VARIABLES=pred_var1 TO pred_var10 /* vars used to form clusters */
 NEXTBEST=nb_clus_var /* output var. holds next best classifications */
 SILHOUETTE=s_value /* output var. holds silhouette scores */
 DISSIMILARITY=EUCLID /* make sure this matches measure in kmeans */
 MINKOWSKIPOWER=2
 /OPTIONS MISSING=RESCALE RENUMBERORDINAL=NO
 /OUTPUT HISTOGRAM=YES ORIENTATION=HORIZONTAL THREEDBAR=YES THREEDCOUNTS=NO .

可能有用的链接:

IBM: Using the silhouette procedure to evaluate kmeans

stackoverflow: How to visualize the effect of running means algorithm in SPSS

Stats.StackExchange: How to Calculate silhouette coefficient in SPSS for clustered data set?

另一方面,您还可以考虑将DISCRIMINANT命令用作评估群集独特性的另一种工具。

DISCRIMINANT
 /GROUPS=clus_var4 (1 4) /* assumes 4 cluster classifications */
 /VARIABLES=pred_var1 TO pred_var10 /* vars used to form clusters */
 /ANAL all
 /METHOD = MAHAL
 /PRIORS SIZE
 /HISTORY = STEP
 /ROTATE struct
 /STATISTICS = CROSSVALID COEFF
 /CLASSIFY = NONMISSING POOLED .

您可以查看输出分类统计数据(交叉验证),以了解预测的聚类分类与实际分类匹配的频率。