如何从具有分层聚类的样本中获得聚类?

时间:2019-05-09 20:32:02

标签: cluster-analysis cross-validation hierarchical-clustering

为了找到一个未知样本所属的簇,

k-means存储每个群集的质心。新样本所属的聚类就是具有最接近质心的聚类。

那分层集群又如何呢?您将如何找到新样本所属的集群?

类似地,在进行聚类的情况下,聚类后,我们只会(单独)获得训练数据的行和列的聚类ID。

换句话说,给定一个具有m个特征(列)的样本,我们需要以某种方式找到每个特征所属的聚类。 谁能向我解释这是如何实现的? 如果我的假设不正确,那么您可以引导我朝正确的方向前进吗?

谢谢

1 个答案:

答案 0 :(得分:0)

你没有。

聚类的目的不是标记新数据点。 K均值在某种程度上是个例外,因为很明显要使用什么规则(最近的中心),但是即使对于k均值,以这种方式标记点的结果也不一定与在其上运行kmeans(X u {x})相同。旧数据加新点。因此不一致。

对于其他算法(例如层次聚类),此效果更糟。例如,一个新的数据点可能会导致两个群集合并!

您可以做的-似乎是常见的解决方案-是使用聚类输出来训练分类器。然后,该分类器可用于预测聚类标签。一个缓慢但常见的选择是(k = 1-)最近邻分类器。