python - 如何建立模型以对多类视频序列进行分类？

除了对视频中的整个图像进行分类之外，我们如何对视频边界框内发生的事情进行分类？

我使用YOLO V3来获取时钟的边界框。如何继续用相应的标签“慢速”，“正常速度”和“最快速度”标记边界框。

我确实在以下结构中设置了标签训练集。

文件夹1：视频中有1000多个时钟

文件夹2：1000个带有时钟坐标的带注释的JSON / XML文件及其各自的标签（“慢速”，“正常速度”，“快速”）。

有人可以帮我指出一个教程或提出一个可以对多类视频序列进行分类的简单模型吗？

这些tut，tut2（尽管他不使用RNN或LSTM），Tut3在整个视频而不是边框上进行。

数据集的目标是找到行为异常的手表。