simplekmeans聚类上的聚类质心

时间:2015-05-11 13:49:48

标签: machine-learning cluster-analysis weka

我目前正在尝试解释在Diabetes.arff数据集上运行 SimpleKMeans 群集所收集的一组结果。

http://i.stack.imgur.com/T4eho.jpg - 链接到群集实例(图1)

到目前为止,我可以理解聚类实例(图1)显示500个变量已被分类为测试为阴性,268个已被分类为测试阳性。

http://i.stack.imgur.com/X9szt.jpg - 链接到groundtruth值(图2)

当将这些值与groundtruth值进行比较时,没有太大差异,因为正确的聚类应该表明500个被分类为测试为阴性,268个被分类为测试为阳性。从技术上讲,这意味着 SimpleKMeans 聚类方法适用于此数据集,因为它已正确分类实例。

但是我不知道如何解释群集质心表中的信息,在完整数据,群集#0和群集1标题下。他们告诉我们关于数据集的信息(图1)?

1 个答案:

答案 0 :(得分:0)

在进行群集之前,应该删除class属性。它具有太多的预测能力,因此,聚类算法在内部偏好类属性时具有很强的偏差。

您可以在"预处理"中执行此属性删除。单击"删除"按钮,或在"群集"单击"忽略属性",然后选择" class"属性。

然后再次聚集。我建议从k = 2开始,这是"类"的唯一值的数量。属性。 (然后检查群集分配是否与原始属性相对应,或者执行其他操作。)

顺便说一句,在我看来,你并没有在"玻璃上工作。数据集,但关于"糖尿病"数据集。