如何使用现有的K-means模型对新数据进行细分?

时间:2013-08-08 16:24:44

标签: transformation k-means euclidean-distance

我使用k-means聚类构建了一个分割模型。

有人能描述将新数据分配到这些细分市场的过程吗?

目前,我正在应用与构建模型相同的转换/标准化/异常值,然后计算欧氏距离。最小距离是记录所属的段。

但是,我看到大多数属于一个特定的细分市场,我想知道我是否遗漏了一些东西?

谢谢

1 个答案:

答案 0 :(得分:1)

将基于欧氏距离的新观测值分类到最接近的平均值可能适用于某些情况,但忽略了原始集群的形状/大小。

解决此问题的一种方法是使用原始群集数据来帮助对每个新观察进行分类(例如,使用KNN http://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm

作为替代方案,您可以考虑使用替代聚类技术,例如高斯混合:左 http://en.wikipedia.org/wiki/Mixture_model
http://home.deib.polimi.it/matteucc/Clustering/tutorial_html/mixture.html

使用此功能,您不仅可以获得每个群集的均值,还可以获得差异。对于每个新观察,您可以计算它属于每个群集的概率。该概率将考虑原始簇大小/形状。使用类型类型的“软”方法也更好,因为它告诉您每个新观察属于每个群集的强度,并且您可以执行诸如将观察标记为远离所有群集的大于某些标准偏差的异常值的事情。