基于内容的图像检索(CBIR):一组特征或描述符匹配?

时间:2016-10-05 10:13:12

标签: image-processing computer-vision cluster-analysis sift nearest-neighbor

我已经阅读了很多关于最近邻问题的论文,看来像随机kd树或LSH这样的索引技术已成功用于基于内容的图像检索(CBIR),它可以在高维空间中运行。一个非常常见的实验是SIFT查询向量,在数据集中找到最相似的SIFT描述符。如果我们使用所有检测到的SIFT描述符重复该过程,我们可以找到最相似的图像。

然而,另一种流行的方法是使用Bag of Visual Words并将检测到的所有SIFT描述符转换为一个巨大的稀疏向量,可以使用相同的文本技术(例如倒排索引)进行索引。

我的问题是:这两种不同的方法(通过最近邻技术匹配SIFT描述符和SIFT描述符上的VS Bag特征+反转索引)是非常不同的,我不明白哪一个是更好。

如果第二种方法更好,那么最近邻在计算机视觉/图像处理中的应用是什么?

1 个答案:

答案 0 :(得分:1)

哦,小男孩,我想问一个问题,即使论文也无法回答。为了进行比较,人们应该采用两种方法的最先进技术并进行比较,测量速度,准确度和召回率。具有最佳特征的那个比另一个好。

就个人而言,我没有听过太多关于视觉词汇的东西,我只在文本相关的项目中使用了词袋模型,而不是与图像相关的项目。而且,我很确定我见过很多人使用第一种方法(包括我和我们的research)。

这是我得到的最好的,所以如果我是你,我会搜索一篇比较这两种方法的论文,如果我找不到,我会找到两种方法的最佳代表(你发布的链接有2009年的一篇论文,我认为这是旧的,并检查他们的实验。

但要小心!为了比较最佳代表的方法,您需要确保每篇论文的实验都是超级相关的,所使用的机器具有相同的“功效”,所使用的数据具有相同的性质和大小,并且等等。