Question

我知道有许多视觉识别API，例如Clarifai，Watson，Google Cloud Vision，Microsoft Cognitive Services，它们可以识别图像内容。这些服务的响应是包含不同标签的简单json，例如

{ 
   man: 0.9969295263290405,
   portrait: 0.9949591159820557,
   face: 0.9261120557785034
}

问题在于我不仅要知道图像上的内容，还要知道该对象的位置。其中一些API具有此类功能，但仅适用于面部检测。

所以有人知道是否有这样的API，或者我需要在OpenCV上为每个对象训练自己的haar级联。

我非常乐意分享一些信息。

Answer 1

你可以看看Wolfram Cloud / Mathematica。

它能够检测图片中的对象位置。

一些例子。