如何描述聚类结果(聚类中心)的程度(误差带)?

时间:2019-06-20 08:24:55

标签: cluster-analysis k-means confidence-interval lower-bound upperbound

我对非常​​大的数据执行了k均值,该数据有数百万行,每行包含一个48维向量。通过应用k = 3,这些数据被聚类为三个类别,每个类别都有一个48维聚类中心向量。我以平行坐标图的形式绘制了三个聚类中心向量。似乎三行分隔良好。但是,我还想知道每个聚类的范围(又称为上带和下带或“错误带”)。那么,如何获得聚类中心的上带和下带? > 由于每个聚类包含近百万个向量,因此很难将它们绘制在图形中作为背景,并在其顶部绘制聚类中心。
非常感谢。

1 个答案:

答案 0 :(得分:0)

嗯,您当然也可以在每个轴上绘图:

  • 最小和最大
  • 上四分位和下四分位(可轻松将一百万个值存入RAM,并且可以排序)
  • 标准差
  • 平均值的标准误

确保您了解这些配对中每个配对的统计意义。

除非有一个主要功能,否则您希望频带的最小值和最大值重叠。平均值的标准误差可能太紧而无法使用(它表明如果添加数据点,平均值有望改变多少,因此该范围内的任何聚类差异完全是随机的,但是聚类不是独立的)