分析集群同质性并在RapidMiner中使用Cluster Distance Performance Operator

时间:2016-07-27 06:00:10

标签: cluster-analysis k-means rapidminer

我在数据集上实现了k-means聚类。我试过通过查看快速采矿者给出的平行和偏差图来分析k的聚类。

目的是分析聚类的同质性。在给出的各种性能模型中,运算符“聚类距离性能”运算符用于k均值聚类的结果。

  1. 是否有其他运营商可以提供此类分析?
  2. 我拥有的数据集的数值向量值很大(in 数百和数千),我也有一个非常的数据集 小值(小数的第5-8位)。
  3. 我不确定如何解释我从运营商“Cluster Distance Performance”获得的结果,如下所示

    质心表结果

    enter image description here

    和Performance Vector运算符结果为

    enter image description here 有人可以帮我这个吗?虽然我读到戴维斯·布尔丁的价值越小越好,那就是聚类。

1 个答案:

答案 0 :(得分:0)

如果您正在尝试找到“最佳”聚类,则必须改变k并计算不同的聚类有效性度量,以比较这些因k变化的方式而变化。戴维斯 - 布尔丁(Davies-Bouldin)经常是一个很好的人,因为“最好的”是最小的信号。最佳定义是从用于构建有效性度量的数学技术(基于声音和逻辑技术)的角度出发,但是人总是必须查看聚类以确定结果是否实际意味着什么。 / p>