应用错误收集

如何描述聚类结果（聚类中心）的程度（误差带）？

时间：2019-06-20 08:24:55

标签： cluster-analysis k-means confidence-interval lower-bound upperbound

我对非常大的数据执行了k均值，该数据有数百万行，每行包含一个48维向量。通过应用k = 3，这些数据被聚类为三个类别，每个类别都有一个48维聚类中心向量。我以平行坐标图的形式绘制了三个聚类中心向量。似乎三行分隔良好。但是，我还想知道每个聚类的范围（又称为上带和下带或“错误带”）。那么，如何获得聚类中心的上带和下带？ > 由于每个聚类包含近百万个向量，因此很难将它们绘制在图形中作为背景，并在其顶部绘制聚类中心。
非常感谢。

1 个答案:

答案 0 :(得分：0)

嗯，您当然也可以在每个轴上绘图：

最小和最大
上四分位和下四分位（可轻松将一百万个值存入RAM，并且可以排序）
标准差
平均值的标准误

确保您了解这些配对中每个配对的统计意义。

除非有一个主要功能，否则您希望频带的最小值和最大值重叠。平均值的标准误差可能太紧而无法使用（它表明如果添加数据点，平均值有望改变多少，因此该范围内的任何聚类差异完全是随机的，但是聚类不是独立的）