我无法考虑与此问题相匹配的结构(a)。
我想过发布包含任意像素的确切数据的100x100 +1条目列表的想法,但这似乎让我觉得浪费了。
如果我能在下一个问题(b,c)中得到一些帮助,我就不会理解我需要做些什么。
答案 0 :(得分:0)
我想知道你可以尝试一下。
由于我们同时拥有图像及其字幕,我的想法是从图像中提取不同类型的信息,并将其作为文本与标题一起存储。当用户提交文本查询和/或图像时,我们需要将它们转换为搜索查询。排名模型意味着您需要根据相似性和一些预定义的分数(如果有的话)对索引文档(图像+标题)进行评分。
使用图片,我们可以做几件事:(见reference)
(1)我们可以通过字符识别程序运行图像,从照片中可见的标牌中提取任何单词。 (或阅读图像模因文本,例如)
(2)我们可以识别任何着名的地标。 (我们有从任何角度识别它们的复杂技术)
(3)我们可以识别名人和名人的面孔,或者,如果谈论您在谷歌照片搜索中索引的私人照片,我们可以从其他照片中识别您的家人和朋友。即使我们没有名字,我们也可以发现熟悉的面孔并将它们组合在一起。我们也可以识别宠物。
(4)我们可以识别物体 - 车辆,建筑物,动物物种。
我们可以从照片及其标题中提取的潜在事物列表非常长且多种多样,但有些事情显然比其他事物提供更高质量的条款。所有提取的特征不一定足够相关。例如,从标题中提取的特征应该在计算相关性分数时得到更多重视。
同样,阅读照片中出现的T恤文字并不像阅读街道标志和商店标志那样有用,这可以让我们轻松找出位置。
因此,当我们正在寻找要放入索引的内容时,我们会建立一个与照片相关的大量内容,以及一些有关我们对这些术语准确反映照片内容的信心的信息。我们可以通过确定在搜索特定术语后有多少人点击图像来随时间调整这些分数。如果获得大量点击,那么将该期限的分数提高可能是合理的。如果它从未被点击,相对于结果附近的其他照片,我们可以降低它。
当用户提交查询和照片时,我们必须运行我们的功能提取策略并将其转换为搜索查询。然后我们必须弄清楚具有与查询匹配的术语的照片集。然后我们必须根据匹配条款的得分,根据相关性对这些照片进行排名。然后我们可以向用户显示结果。
基于提取的特征从图像中提取特征和计算相关性得分并不是一件容易的事情。什么类型的排名模型会给你带来好的结果很大程度上取决于提取的功能(功能是指与图像相关的关键词)以及你的系统如何精确地权衡与图像相关的术语。
一旦您可以将标题和/或图像转换为文本信息,您就可以使用排名函数,例如Okapi BM25,搜索引擎会根据它们与给定搜索查询的相关性对匹配文档进行排名。