标签: video machine-learning neural-network nlp
我正在忙于对一些视频文件进行大量的手工操作,我想知道是否有办法让它变得更容易:
我想做的是拍摄视频文件(例如,硅谷的一集)并检测某个角色(即Erlich Bachman)说话的部分。我不太确定如何去做这件事,但这肯定会让我的工作变得更加轻松。
我想要达到这个目的就是这样:用Erlich的声音训练一些特殊的神经网络,然后使用ffmpeg对视频文件的部分进行采样,通过nnet运行样本,如果输出是积极的,进行更精细的搜索,以找到对话的确切开始/结束点。
答案 0 :(得分:1)
我认为您可以使用LSTM并且只是逐个提供音频帧(或者您称之为的任何内容)。你应该不只用Elrich的声音音频文件来训练它。你实际上应该给它几集作为输入,每当Elrich说话时,你将所需的输出设置为1,当他/她不是时,你将所需的输出设置为0。经过训练后,LSTM将输出0-1之间的值;价值越高,Elrich所说的变化就越高。
1
0
0-1
但请记住,你需要一些体面的训练才能真正拥有一个表现良好的神经网络。当Elrich说话时,加上开发的时间和精力可能会超过你花时间寻找零件的时间。所以看看一些API:
This看起来像你可能想要使用的东西。 你应该谷歌演讲者识别,你就能找到你需要的东西。