应用错误收集

您似乎对使用在初始数据集上运行K-Means的结果执行某种类型的群集分配感兴趣，对吗？

您可以将新观察分配到最接近的平均值。不幸的是，对于K-Means，您不了解每个群集的形状或大小。例如，考虑一个新向量与两个均值等距（或大致等距）的场景。你在这种情况下做了什么？你是否对其中一个集群进行了艰难的任务？

在这种情况下，实际上可能更好地查看包含每个群集的原始数据，并执行某种类型的K-Nearest Neighbor分配（http://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm）。例如，可能会发现，当新向量与两个不同的聚类中心大致等距时，它更接近来自其中一个聚类的数据（表明它可能属于该聚类）。

作为K-Means的替代方案，如果你使用像EM的高斯混合一样，你不仅会有一组聚类中心（和K-Means一样），还会有一个方差，描述大小集群对于每个新观察，您可以计算它属于每个集群的概率，而无需重新访问每个集群中的数据（因为它已经融入到MoG EM模型中）。

具有Kmeans输出中心功能的群集数据

1 个答案: