基于内容的图像检索?

时间:2015-01-30 10:52:34

标签: machine-learning computer-vision

我用Google搜索基于内容的图像检索(CBIR),实际上维基定义非常明确,但没有太多的材料或与主题相关的书籍。任何人都可以解释构成基于内容的图像检索和任何资源的组件是什么?

2 个答案:

答案 0 :(得分:0)

基于内容的图像检索(CBIR)的任务可以描述为:"给定查询图像,在数据库中找到相似的图像"。

据我所知,CBIR有三个基本步骤 (1)特征提取:提取有用的特征来描述图像(对于数据库和查询图像中的图像) (2)匹配:再次计算查询的提取特征之间的距离数据库图像,并根据与查询的距离产生数据库图像的排名 (3)细化:完善比赛(重新排名)

a)到目前为止,大部分工作都放在第一步,即特征提取:

  • 传统上,最常用的是手工制作的局部特征(SIFT,SURF等)。
  • 最近,研究人员提出使用Bag-of-word,VLAD,Fisher vector等编码方法从原始局部特征生成紧凑描述符。好处有两个:(i)紧凑描述符比原始局部特征更可靠; (ii)紧凑描述符的脚印比原始特征小,因此更容易扩展,适合大规模检索
  • 最近,随着计算机视觉深度学习的巨大成功,人们正在转而使用从卷积神经网络(CNN代码)学到的特征来取代当地的手工艺特征。 CNN代码可以按原样使用,或者与上面提到的一些编码方法结合使用。一般来说,CNN代码比手工制作的功能具有更好的性能(在一些标准基准测试中得到证实,如Holiday数据集,Oxford5K,Oxford100K,Paris,UKB)

b)第二步:一些简单的距离指标可以完成工作(欧几里德距离,余弦距离等)

c)可以使用RANSAC或先验知识执行最后一步(重新排名)。 (我实际上对此步骤一无所知)

通过上述文字中的一些关键字,您可以通过Google找到有用的资源。

答案 1 :(得分:0)

基于内容的图像检索(CBIR)可以简单地视为“给定查询图像,基于查询图像的内容获得与查询图像最相似的等级列表。传统方法包括词汇树方法。您可以查看此库libvot以获取详细信息。

最近深度学习的成功带来了新兴方法。深度学习方法通​​常不依赖于本地特征,而是依赖于全局图像描述。这是另一个很大的话题。