我们为什么要使用视觉词(或vlad)而不是存储描述符?

时间:2017-06-21 21:56:08

标签: encoding computer-vision information-retrieval vlad-vector

我已经阅读了很多关于图像编码技术的文章,例如一袋视觉词,VLAD或Fisher矢量。

但是,我有一个非常基本的问题:我们知道我们可以执行描述符匹配(暴力破解或利用ANN技术)。我的问题是:为什么我们不使用它们?

据我所知,Bag of Visual Words由每个图像的数十万个维度组成,以准确表示。如果我们考虑具有1千个SIFT描述符的图像(已经是相当多的数字),我们有128,000个浮点数,这通常小于BoVW的维数,因此它不是出于记忆原因(至少如果我们不考虑大规模问题,那么首选VLAD / FV代码。)

那我们为什么要使用这种编码技术呢?这是出于性能原因吗?

1 个答案:

答案 0 :(得分:0)

我很难理解你的问题。

关于描述符匹配,强力,ANN匹配技术用于检索系统。最近的匹配技术包括KDtree,Hashing等。

BoVW是一种传统的表示方案。 BOVW与倒置索引一度是信息检索系统中最先进的。但是BOVW表示的维度(每个图像的内存使用量)(高达数百万)限制了在实践中可以索引的实际图像数量

FV和VLAD都是具有高辨别能力的紧凑视觉表现,这是BoVW所缺乏的。已知VLAD非常紧凑(每个图像32Kb),在检索和分类任务中非常有辨别力和有效。

是的,此类编码技术用于性能原因。 您可以查看本文以加深理解:Aggregating local descriptors into a compact image representation