通常,关于如何将视频用作深度学习模型的输入,是否有“最佳实践”?我们如何以最有效的方式注释视频?
另外,我有一些录像带鸭子走过一段路。我想计算通过该通道的灰鸭和黄鸭的数量。鸭子可以直接通过(最简单的情况),或者可以在通道中停留一段时间然后通过,或者可以通过通道的一半然后返回另一个方向(在这种情况下,不应计算在内)。
我计划使用Mask-RCNN在每个帧中分割鸭子,然后查看第i帧中的蒙版和第i + 1帧中的蒙版,并制定规则以计算真正通过通道的不同鸭子的数量。 这对我来说似乎不是最佳选择。
有什么想法/帮助/提示吗?
答案 0 :(得分:0)
我想这取决于视频,但是一个不错的选择是