我试图找到一个人出现在视频中的开始和结束时间。 我目前的方法是找到使用面部检测的人,然后使用dlib对象跟踪跟踪他的面部(即如果该人在视频中转身,我不知道他仍然在使用面部识别的视频中。因此我需要检测和跟踪技术)。
问题在于物体追踪仍然在物体后跟踪,即使有相机拍摄或场景改变。
所以,我尝试每次拍摄初始化跟踪对象。但是,检测镜头并不容易。即使灵敏度非常高,ffmpeg和http://mklab.iti.gr/project/video-shot-segm也不会返回所有镜头。
因此,事实证明我需要将前一帧的对象矩形与当前帧中检测到的矩形进行比较。
能否在两帧中的两个矩形之间给出一个“相似性得分”的函数?