我正在研究一些图像识别的东西,并试图使用k-means来匹配算法。
实际上,我在数据库上有很多向量(确切地说,SURF描述符),我想将它们聚类以用于将来的匹配过程。
然而,问题是,我相信训练数据集会增长(可能会出现新的训练数据),这使我无法一次训练这些数据。
首先对某些数据进行聚类是可以的,但这是否意味着每个新数据都需要完全重新聚类?如果我对现有集群有足够的信心,那么少数额外数据(例如,所有数据的额外1%)是否会损害集群?
答案 0 :(得分:1)
K-means不是一种特别聪明的算法。而在SIFT向量上,结果通常不会比随机凸分区好得多。
如果您的初始样本具有代表性,则无需重新运行聚类:无论如何,新数据对质心的影响应该很小。
要加快聚类速度,您还可以重复使用以前的质心作为初始种子。这应该需要更少的迭代次数。