我有很多视频和他们的成绩单。使用成绩单我需要在视频中找到单词的位置。它不一定是确切的位置,但尽可能接近。
到目前为止,我一直在考虑使用普通发言者所说的单词数来找出相对位置。
我想知道是否有更好的方法来解决这个问题?
由于
答案 0 :(得分:3)
免责声明:因为这是一个关于算法的一般性问题,没有提及任何技术或堆栈,我将自由地雄心勃勃,并假设你实际上可以做我提议的东西:)
在视频上使用语音检测。即使是粗略的翻译也可以,因为你有实际的成绩单。可以使用大量的文本库语音。
然后将翻译后的脚本与您已有的成绩单进行近似字符串匹配
确定上述匹配的时间戳
将真实的成绩单分配给这些时间戳
我不认为你所采用的平均方法可以非常准确,因为语音速度,语义,口音,语法等等。你最好的选择是使用库来翻译和匹配粗略的权威脚本。
当然,匹配和分配时间戳将需要大量的精炼和一定程度的模糊逻辑,但它是一个开始!