k-means聚类与新的训练数据?

时间:2014-05-17 09:06:20

标签: r algorithm data-mining

我正在研究一些图像识别的东西,并试图使用k-means来匹配算法。

实际上,我在数据库上有很多向量(确切地说,SURF描述符),我想将它们聚类以用于将来的匹配过程。

然而,问题是,我相信训练数据集会增长(可能会出现新的训练数据),这使我无法一次训练这些数据。

首先对某些数据进行聚类是可以的,但这是否意味着每个新数据都需要完全重新聚类?如果我对现有集群有足够的信心,那么少数额外数据(例如,所有数据的额外1%)是否会损害集群?

1 个答案:

答案 0 :(得分:1)

K-means不是一种特别聪明的算法。而在SIFT向量上,结果通常不会比随机凸分区好得多。

如果您的初始样本具有代表性,则无需重新运行聚类:无论如何,新数据对质心的影响应该很小。

要加快聚类速度,您还可以重复使用以前的质心作为初始种子。这应该需要更少的迭代次数。