python - 如何计算视频中的对象

通常，关于如何将视频用作深度学习模型的输入，是否有“最佳实践”？我们如何以最有效的方式注释视频？

另外，我有一些录像带鸭子走过一段路。我想计算通过该通道的灰鸭和黄鸭的数量。鸭子可以直接通过（最简单的情况），或者可以在通道中停留一段时间然后通过，或者可以通过通道的一半然后返回另一个方向（在这种情况下，不应计算在内）。

我计划使用Mask-RCNN在每个帧中分割鸭子，然后查看第i帧中的蒙版和第i + 1帧中的蒙版，并制定规则以计算真正通过通道的不同鸭子的数量。这对我来说似乎不是最佳选择。

有什么想法/帮助/提示吗？

我想这取决于视频，但是一个不错的选择是

为添加一些注释，例如：http://www.robots.ox.ac.uk/~vgg/software/via/
使用 YOLO 或 Mask-RCNN 之类的模型在每个对象上找到边界框并将其分类。或使用光流算法。光流算法也是一种选择，而不是使用深度学习，但是由于几种可能的结果，我最终决定不使用它，因为从我的角度来看，它的自动化程度降低了：*对象移动，停止并重新开始移动将需要特别注意*一种主要颜色的对象可能会被分成两部分（中间像素可能会被视为不移动）*一起经过的一组对象可能会被视为一个对象
然后使用跟踪算法，您将能够为每个对象指定一个特定的ID，从而可以计算它们通过特定行的时间。