在视频动作检测中使用机器学习或深度学习

时间:2018-01-24 02:56:23

标签: python machine-learning deep-learning

我有1000个视频(编号为1到1000),每个视频中都有人跳舞(OK或NG),我想从这1,000个视频中学习一个模型。这个模型可以告诉我谁跳舞不严重(例如,50号NG),我读了很多论文,但我的想法有点乱。

我的想法是将每个视频分割成帧,然后使用图像分类技术 CNN 创建一个简单的二元分类器(OK或NG)。最后,如果将来会有一个新视频,这个模型可以通过这个二元分类器告诉我OK或NG类别。但问题是OK或NG在每一帧中都太相似,它确实无法识别。我该如何解决这个问题?

2 个答案:

答案 0 :(得分:1)

您是否考虑过使用您的操作微调现有的动作识别数据集?如果您的视频很长,您可能需要将每个视频停留在短视频剪辑中并在窗口上应用该模型。行动认可是研究的前沿领域,因此强有力的解决方案充其量只是新生。

类似于:https://github.com/bryanyzhu/Hidden-Two-Stream

答案 1 :(得分:0)

您目前只是在寻找空间特征,但可能是最重要的相关性发生在时间轴上。例如。人们如何从一个框架移动到另一个框架。

这样做的一种流行方式是建立一个循环卷积神经网络,这是一个独立的高级主题。

您还可以尝试将固定数量的连续帧投放到CNN模型中并使用 3D CNN