项目:基于内容的图像检索 - 半监督(在训练时对图像进行手动标记)
描述
我在数据库中有1000000个图像。培训是手动(监督) - 为每个图像提供标题和标签。 例: coke.jpg 标题:可乐 标签:可乐,可以
使用图像和标签,我必须训练系统。在训练之后,当我给出新图像(已经在数据库中/全新)时,系统应输出图像可能属于的可能标签并显示属于每个标签的少量图像。系统也可能说未找到匹配项。
问题:
1)图像指纹是什么意思?预期的图像指纹大小是多少? (这很重要,因为数据库中将插入数百万张图片)
2)数据库中该指纹的字段格式是什么? (这很重要,因为需要快速搜索......脚本应该在不到1秒的时间内在1M图像数据库中搜索)
3)我们用来分析它们的描述符(算法)是什么?
提前致谢
答案 0 :(得分:3)
嗯,这个主题非常大,但这里是一个可能的解决方案的简要概述
图像指纹是SIFT描述符的集合 这些都被量化以减小尺寸,并允许索引
构建数据库的倒排索引,以允许通过量化描述符查找图像(您可以使用任何全文搜索引擎\ DB)
给定图像,查找共享大量常用描述符的图像
对于那些潜在的候选人,您应该验证描述符的空间排列是否足够相似
有些文章可以帮助您入门:
Mikulík, Andrej, et al. "Learning a fine vocabulary." Computer Vision–ECCV 2010 (2010): 1-14.
答案 1 :(得分:2)
我建议在训练图像中提取的图像特征列表上训练SVM模型
答案 2 :(得分:1)