computer-vision - 是否可以创建可识别图像上下文的软件？

我在使用Google Goggle和Google的“按图搜索”时因为好奇而提出了这个问题。

如果您尝试向Google提供要搜索的图片，则可以显示一些结果。相同的图像效果最好（当然），但拍摄各种物体可能很困难。

我猜Google Goggle通过使用文本识别和图像匹配识别来解决一些问题。如果文本识别发现了文本，例如“SONY”，那么事情可能会变得更简单。如果检测到品牌的图像，那么事情也应该更简单。其他着名品牌和着名地标，如埃菲尔铁塔也是如此。拥有文字和品牌形象有助于轻松识别事物。

但是，如果我们要搜索更加模糊的东西（例如需要更好的措辞），请拍摄这张拉面图片。

ramen

如果您将此图像放入Google，您将获得具有相似颜色且有时形状相似的各种其他图像的图像。哎呀，结果中还有其他的拉面图像，但我认为如果这些拉面图像在顶部会更好，因为我们输入了拉面图像，我们的上下文是拉面。

所以这是我的问题，是否有可能创建一个能够理解图像背景的软件？我们如何在软件中表达上下文？

伙计，你只是想知道为什么这么多人从事计算机视觉工作的原因。

以数学方式描述对象非常容易。颜色，形状，密度，。。。所有这些都可以轻松计算出来。

但在谈论“现实生活中的对象”时，计算机视觉变得非常复杂。

角度，亮度和简单的非一致性使得几乎不可能准确地检测到物体。

在处理计算机视觉时，你应该总是问自己：是什么让我想要识别的对象与众不同？

我可以使用哪种描述符，没有其他对象拥有？

问问自己这些拉面的问题。假设我只想检测拉面。如果汤的颜色变化怎么办？如果肉更大会怎么样？

如果您想了解更多信息，请阅读模式识别和模式匹配。

如果你能以通用的方式找到这类问题的解决方案，你可以注册我认为的诺贝尔价格：）

现在有些事情是众所周知的，比如面部识别或OCR;但它们通常非常专业，只适用于一个域。想一想，当你用拉面喂它时，谷歌的图像搜索算法很糟糕。虽然它与sudoku非常有效，因为他确切地知道他在寻找什么。所有的差异都在训练中进行，您可以在其中列出一系列假设来帮助算法。

所以基本上你得到了它。你要么创造一个非常好的计算机视觉系统，擅长根据很多假设来检测一件事，或者是一个“确定”但非常通用的:)。选择主要取决于您的应用