通常,作为SIFT,SURF和其他许多算法的算法会在k
维度中提供一组d
个关键点和关联的描述符(例如,在每个描述符的SIFT中)有d=128
个维度。
因此,为了描述图像,我们需要一个矩阵kxd
(k
描述符向量,每个向量都在d
维度中)。到目前为止一切都很好。
我的问题是:我们如何通过单个矢量描述图像?
这可能非常有用,因为我们可以节省大量空间,因为某些算法(如LSH)需要一个向量作为输入/查询。
在一些论文中(例如this,第6.5节),这种方法被描述为"全局描述符"。
据我所知,我发现只有this paper,但它看起来并不准确(而且从2009年开始,不是那么新)。
更新 其他可能的解决方案(评论中建议的一些):
可视包词
gist描述符