任何人都能解释一下WEKA中K-Means聚类的输出实际意味着什么。
例如
kMeans
Number of iterations: 9
Within cluster sum of squared errors: 9434.911100488926
Missing values globally replaced with mean/mode
Cluster centroids:
Cluster#
Attribute Full Data 0 1
(400) (310) (90)
=================================================
competency134 0.0425 0.0548 0
competency207 0.0425 0.0548 0
competency263 0.01 0.0129 0
competency264 0.01 0.0129 0
competency282 0.01 0.0129 0
competency289 0.01 0.0129 0
列中的数字实际意味着什么,它表示表格上方的聚类质心,但如何确定两个聚类的质心是什么?
如果有人能够解释数字意味着什么,我将非常感激。
如果有人有任何想法如何完成对发现的群集的轮廓评估,那也很棒。
由于
答案 0 :(得分:4)
第一列为您提供总体人口质心。第二列和第三列分别为集群0和1提供了质心。每行给出特定维度的质心坐标。
我相信你需要了解K-means。寻找质心是算法的重要组成部分。质心是特定算法运行的结果,并不是唯一的 - 不同的运行可能会生成不同的质心集。
有关详细信息,请参阅Michael Abernethy's description of Weka clustering。
答案 1 :(得分:3)
只是第一步,
将可视化选项卡中的绘图保存为arff文件。
使用weka打开它并单击编辑,您将自动查看每个实例所属的群集。
将此表复制到excel(以便更容易想象)
使用excel或matlab通过经典方法找到silhoutte,cohesion,separation。
答案 2 :(得分:0)
首先,聚类是一种描述性统计方法。 其次,算法Kmeans需要事先输入簇的数量,找到最优簇数,几种统计方法。 第三,数值数据的质心是产生聚类的数据的算术平均值。所以这些数据代表了组数据。
答案 3 :(得分:-1)
如果属性是名义上的,则为群集中的属性使用最常用的值。 如果属性为数字,请使用群集中属性的平均值。 查看this link了解详情。