今天的物体检测有哪些障碍?

时间:2017-03-27 23:57:17

标签: nlp computer-vision object-detection

我是计算机视觉的新手,现在我正在研究物体检测。我读过有关更快的RCNN和RFCN的论文,也读过YOLO。看来最大的问题是速度?并且他们都只使用图像数据。有没有结合文本和图像数据的模型?这意味着我们可以使用来自文本的信息来帮助检测训练数据何时很小。例如,当训练数据很小时,模型不能清楚地告诉狗和猫,但模型可以判断该物体附近有骨骼,模型从文本中获取一些信息,骨骼附近的物体很可能是狗,因此模型现在可以告诉对象是什么。这种算法存在吗?我还没找到他们,希望你能帮助我。非常感谢。

1 个答案:

答案 0 :(得分:0)

您似乎主要参考深度网络对象检测的研究。在深度网络成功之前,研究人员希望能够使用带有图像功能的文本来实现与您类似的想法。您可能需要参考ACM Multimedia和IEEE TMM的论文,尤其是2014年之前的论文。

问题在于这些方法的表现不如仅使用图像的最简单的深层网络。关于图像和文本的组合有一些工作,例如this paper。我相信至少有一些研究人员已在研究这个问题。