我知道有许多视觉识别API,例如Clarifai,Watson,Google Cloud Vision,Microsoft Cognitive Services,它们可以识别图像内容。这些服务的响应是包含不同标签的简单json,例如
{
man: 0.9969295263290405,
portrait: 0.9949591159820557,
face: 0.9261120557785034
}
问题在于我不仅要知道图像上的内容,还要知道该对象的位置。其中一些API具有此类功能,但仅适用于面部检测。
所以有人知道是否有这样的API,或者我需要在OpenCV上为每个对象训练自己的haar级联。
我非常乐意分享一些信息。
答案 0 :(得分:0)
你可以看看Wolfram Cloud / Mathematica。
它能够检测图片中的对象位置。
一些例子。