文档显示,仅返回定制训练模型的概念:
{
"status": {
"code": 10000,
"description": "Ok"
},
"outputs": [
...,
"created_at": "2016-11-22T16:59:23Z",
"model": {
...
},
"model_version": {
...
}
}
},
"input": {
"id": "e1cf385843b94c6791bbd9f2654db5c0",
"data": {
"image": {
"url": "https://s3.amazonaws.com/clarifai-api/img/prod/b749af061d564b829fb816215f6dc832/e11c81745d6d42a78ef712236023df1c.jpeg"
}
}
},
"data": {
"concepts": [
{
...
},
而训练有素的模型(例如人口统计和人脸返回区域)在图像中具有x / y位置。
如果我想在图像中检测WHERE,则可以为我的自定义模型预测该概念。我唯一的选择是将图像拆分为网格并以字节为单位提交吗?这似乎适得其反,因为这将导致额外的查找。
答案 0 :(得分:1)
在Clarifai平台中:人口统计,面部检测和服装检测都是对象检测模型。一般,旅行,食物等都是分类模型。分类和对象检测是两种不同的(尽管外观相似)计算机视觉任务。
例如,如果您要将图像分类为“悲伤”,则没有边界框(即区域轮廓)“悲伤”是没有意义的。分类会考虑整个图像。
对象检测,查看图像的各个部分,并尝试查看对象是否在那里(有点像您建议的解决方法)。因此,“刀”在哪里,或者您想要作为离散对象的任何东西。
令人困惑的是,您可能会有概念上的重叠,例如具有“面子”的概念。您可能有一张具有此分类的图片,但也可能在特定位置检测到特定的“面部”对象。分类不仅限于抽象概念(尽管在考虑这两种方法之间的差异时考虑它们是很有帮助的。)
现在,所有自定义模型都是分类模型,而不是对象检测模型。我认为已经在系统的企业级上为此进行了工作,但是我不相信当前有任何可用的方法。您正在使用的通用模型听起来像是对象检测模型-因此您可以获得一些额外的信息!
顺便说一句:据我所知,您建议的解决方法应该会起作用,方法是将图像基本上分成小图像并要求对每个图像进行分类。您是对的,这样效率低下,但是目前我不确定是否有更好的选择。