我对非常大的数据执行了k均值,该数据有数百万行,每行包含一个48维向量。通过应用k = 3,这些数据被聚类为三个类别,每个类别都有一个48维聚类中心向量。我以平行坐标图的形式绘制了三个聚类中心向量。似乎三行分隔良好。但是,我还想知道每个聚类的范围(又称为上带和下带或“错误带”)。那么,如何获得聚类中心的上带和下带? >
由于每个聚类包含近百万个向量,因此很难将它们绘制在图形中作为背景,并在其顶部绘制聚类中心。
非常感谢。
答案 0 :(得分:0)
嗯,您当然也可以在每个轴上绘图:
确保您了解这些配对中每个配对的统计意义。
除非有一个主要功能,否则您希望频带的最小值和最大值重叠。平均值的标准误差可能太紧而无法使用(它表明如果添加数据点,平均值有望改变多少,因此该范围内的任何聚类差异完全是随机的,但是聚类不是独立的)