如何计算相机框架上检测到的物体?

时间:2019-12-22 20:38:41

标签: computer-vision object-detection tensorflow-lite

上下文:

  • 我有一些图片和一个iOS设备的摄像头,在上面我可以获取图片的一部分并检测出其中的一些对象(确切地说,我得到了边界框)。
  • 图片会移动,因此相机会获取图片的新部分。
  • 我想唯一地计数检测到的对象,因此,如果我得到了图片的一部分,那么我已经通过并找到了已经计数的对象,那么我将跳过它们。
  • 基于iOS的TensorFlow Lite SDK的解决方案

以下是电话的样子(and video of capturing and detecting): Example of detection on frame captured from camera

我的想法

  1. 计算帧的运动位移),然后将检测到的边界框与已经找到的bbs进行比较,并考虑到绝对位移。问题在于移位算法不够确定性和精确度,因此当我返回上一张图片时,移位被确定为有一些误差,并且在移动过程中,该误差正在累积。结果,旧bbs的绝对位置定义错误。我做错了还是这不是我的任务的正确解决方案?
  2. 使用多个对象跟踪,这似乎是此类任务最流行和最常用的方式。那里有很多不同的子任务,但主要是从这些子任务开始,我需要能够在随后的帧中重新标识对象,处理对象的出现和消失。如果在光照变化和运动模糊的情况下仍可以跟踪它们,那将是很好的(对于模糊,我现在暂时可以忽略这些帧)。当对象在某些帧中被部分或完全遮挡或两个对象彼此交叉时,这也非常有用。我只有一个观点,观点是稳定的,现在,我不在乎规模变化,但也许将来会。我在这里可以使用什么?我遇到了OpenCV Camshift(https://docs.opencv.org/3.4.1/db/df8/tutorial_py_meanshift.html)和SORT(https://arxiv.org/abs/1602.00763)以及其他许多基于深度学习的解决方案。在此处进行实时对象跟踪和计数的最佳做法是什么?
  3. 使用图像拼接,这样,我就可以在拼接图像上计算对象。生成的图像将像以下视频中那样进行拼接:https://www.youtube.com/watch?v=orcYKy19mjQ。从理论上讲,如果将图像正确拼接,而忽略图片的重复部分,则仅对检测到的物体进行计数将是一项容易的任务。我希望使用OpenCV SURF算法(我知道它已申请专利)或ORB。是解决该任务的一种可行方法,这里有一些警告,在iOS设备上是否可以正常工作?

有人面临类似的任务吗,请分享您的经验:)

0 个答案:

没有答案