APPLY_KMEANS如何在Vertica中工作

时间:2017-01-24 13:56:15

标签: machine-learning k-means vertica

我正在测试Vertica中的机器学习工具。我理解KMEANS是如何工作的,因为它只是将数据分成簇。但是我不明白APPLY_KMEANS如何处理新数据。 在我看来,它更像是一种分类方法。因为它将现有集群中的新数据分类。那么使用什么算法(K最近邻居)?从文档中不太清楚。

1 个答案:

答案 0 :(得分:1)

k -means是一个聚类算法(不是分类!),它迭代了两个步骤:

  • 分配步骤:为每个点指定一个质心
  • 更新步骤:更新质心坐标

当您构建k-means模型时,首先初始化质心(不同策略,可以是随机初始化),然后迭代直到您的群集正常(您的错误低于给定阈值)。

您的模型定义的实际上是您的质心。

使用APPLY_KMEANS时,您将使用查询中的数据和模型中的质心运行分配步骤。然后根据它们相对于质心的距离将点分配给簇。

希望它有所帮助 pltrdy

关于群集与分类的注意事项:
我们可以想到聚类是一种分类。但是,分类必须仅引用supervised learning,而群集对应于unsupervised learning。因此,不要这样做:)