我在我的100条记录数据集中在SPSS中应用了分层(凝聚)聚类。 规则说'距离系数使得较大的jumb点确定了簇的数量。
公式:没有案例 - 肘部的步数=没有簇 我正在关注本教程“http://www.mvsolution.com/wp-content/uploads/SPSS-Tutorial-Cluster-Analysis.pdf”。问题是,在我的输出中,距离系数没有更大的误差,那么我如何从中确定k的值呢?
当我计算出距离系数的变化时,它出来了:
900-846 = 54
962-900 = 62
1025-962 = 63
1091年至1025年= 66
一一六〇年至1091年69 =
1233年至1160年= 73
1305年至1233年= 72
1379年至1305年= 74
1460年至1379年= 81
1543至1460年= 83
1630至1543年= 87
1728年至1630年= 98
我需要k的值来应用kmeans ..
答案 0 :(得分:0)
在仅包含单个群集的数据集中(或当距离函数确实不起作用时),(通常)将无膝盖。
为什么不首先通过在一些玩具数据集上进行尝试来熟悉层次聚类?在集群2D数据集,统一的2d数据集和具有单个高斯集群的2d数据集上尝试,以了解这些图表的行为。
然后尝试使用相同的数据集,但通过使用10000缩放一个维度来对它们进行反规范化。标准化不正确的数据可以完全隐藏您感兴趣的结构!