需要有关实时视频的目标检测和运动分类的建议

时间:2019-10-13 08:13:08

标签: machine-learning computer-vision artificial-intelligence object-detection yolo

我正在为我的最后一个项目进行研究,我想进行像Amazon Go这样的对象检测和运动分类,我已经阅读了很多研究,例如使用SSD或YOLO进行对象检测以及使用CNN + LSTM进行视频分类,我想提出这样的训练算法:

  1. 使用SSD / YOLO实时检测多个对象(在我的情况下为人)
  2. 获取边界对象并裁剪框架
  3. 将裁剪后的帧信息馈送到CNN + LSTM算法中以进行运动预测(如果该人正在行走/携带物品)

是否可以在实时环境中实现? 还是有更好的实时检测和运动分类方法

2 个答案:

答案 0 :(得分:1)

如果要在实时应用程序中使用它,则必须考虑其他一些事情,这些事情在实际环境中实现算法之前不会出现。

关于建议的3步方法,可能已经是一种好的方法,但是第一步将非常准确。我认为最好将三个步骤合为一个步骤。因为人的运动类型是人的一个好特征。因此,我认为所有步骤都可以集中在一个步骤中。

我的想法如下: 1.视频分类数据集,仅标记人物或物体的运动 2.基于cnn-lstm的视频分类方法

这将正确解决您的项目。

此答案需要更多详细信息,如果您有兴趣,我可以提供更多详细信息。

答案 1 :(得分:0)

几乎有同样的问题。运动预测在复杂的现实情况下效果不佳。这是一个简单的例子:

enter image description hereSee in action

我正在构建4K视频处理工具(some examples)。当前的方法如下所示:

  1. 进行粗略但超快速的细分
  2. 提取边界框和形状
  3. 应用一些“元视觉魔术”
  4. 在确定的区域内进行精确分割

enter image description hereSee in action

到目前为止,与运动跟踪相比,该方法看起来更加灵活。

“元视觉”旨在正确跟踪形状的演变: enter image description hereSee in action

我们进行比较: