是否可以创建可识别图像上下文的软件?

时间:2012-10-12 19:27:56

标签: computer-vision image-recognition

我在使用Google Goggle和Google的“按图搜索”时因为好奇而提出了这个问题。

如果您尝试向Google提供要搜索的图片,则可以显示一些结果。相同的图像效果最好(当然),但拍摄各种物体可能很困难。

我猜Google Goggle通过使用文本识别和图像匹配识别来解决一些问题。如果文本识别发现了文本,例如“SONY”,那么事情可能会变得更简单。如果检测到品牌的图像,那么事情也应该更简单。其他着名品牌和着名地标,如埃菲尔铁塔也是如此。拥有文字和品牌形象有助于轻松识别事物。

但是,如果我们要搜索更加模糊的东西(例如需要更好的措辞),请拍摄这张拉面图片。

ramen

如果您将此图像放入Google,您将获得具有相似颜色且有时形状相似的各种其他图像的图像。哎呀,结果中还有其他的拉面图像,但我认为如果这些拉面图像在顶部会更好,因为我们输入了拉面图像,我们的上下文是拉面。

所以这是我的问题,是否有可能创建一个能够理解图像背景的软件?我们如何在软件中表达上下文?

1 个答案:

答案 0 :(得分:1)

伙计,你只是想知道为什么这么多人从事计算机视觉工作的原因。

以数学方式描述对象非常容易。颜色,形状,密度,。 。 。 所有这些都可以轻松计算出来。

但在谈论“现实生活中的对象”时,计算机视觉变得非常复杂。

角度,亮度和简单的非一致性使得几乎不可能准确地检测到物体。

在处理计算机视觉时,你应该总是问自己:是什么让我想要识别的对象与众不同?

我可以使用哪种描述符,没有其他对象拥有?

问问自己这些拉面的问题。假设我只想检测拉面。 如果汤的颜色变化怎么办?如果肉更大会怎么样?

如果您想了解更多信息,请阅读模式识别和模式匹配。

如果你能以通用的方式找到这类问题的解决方案,你可以注册我认为的诺贝尔价格:)

现在有些事情是众所周知的,比如面部识别或OCR;但它们通常非常专业,只适用于一个域。 想一想,当你用拉面喂它时,谷歌的图像搜索算法很糟糕。 虽然它与sudoku非常有效,因为他确切地知道他在寻找什么。 所有的差异都在训练中进行,您可以在其中列出一系列假设来帮助算法。

所以基本上你得到了它。你要么创造一个非常好的计算机视觉系统,擅长根据很多假设来检测一件事,或者是一个“确定”但非常通用的:)。 选择主要取决于您的应用