我开始开发一个软件,通过旅游景点的图像(例如:圣彼得大教堂,罗马斗兽场等),我应该检索哪个是现场的名称(及其相关信息) 。除了图像,我将与我一起使用图片坐标(作为元数据嵌入)。我知道我可以使用反向搜索来支持我使用反向搜索,其中我将图像作为输入,我将作为响应提供大量图像。
但是,我的建议请求是,现在拥有所有类似的图像,我可以使用哪种方法来检索照片中正确的地名。
我正在管理的第二种方法是在我的数据库中构建我自己的数据集,并执行我自己的启发式(按位置过滤图像,然后在完成过滤后对结果子集进行比较)。听取了建议和意见,并提前致谢。
答案 0 :(得分:0)
一个想法是使用图像的标题(如果可用)作为查询,检索候选列表并利用结构化知识库来推断位置名称。
如果没有与图像相关的字幕,情况会变得非常棘手,在这种情况下,您可以使用预先训练过的卷积网的fc7层输出并查询到ImageNet以检索相关图像的排序列表。由于这些图片有字幕,您可以再次使用它们来获取位置名称。