应用错误收集

检测角色说话的视频文件中的句点

时间：2017-05-03 19:15:53

标签： video machine-learning neural-network nlp

我正在忙于对一些视频文件进行大量的手工操作，我想知道是否有办法让它变得更容易：

我想做的是拍摄视频文件（例如，硅谷的一集）并检测某个角色（即Erlich Bachman）说话的部分。我不太确定如何去做这件事，但这肯定会让我的工作变得更加轻松。

我想要达到这个目的就是这样：用Erlich的声音训练一些特殊的神经网络，然后使用ffmpeg对视频文件的部分进行采样，通过nnet运行样本，如果输出是积极的，进行更精细的搜索，以找到对话的确切开始/结束点。

1 个答案:

答案 0 :(得分：1)

我认为您可以使用LSTM并且只是逐个提供音频帧（或者您称之为的任何内容）。你应该不只用Elrich的声音音频文件来训练它。你实际上应该给它几集作为输入，每当Elrich说话时，你将所需的输出设置为1，当他/她不是时，你将所需的输出设置为0。经过训练后，LSTM将输出0-1之间的值;价值越高，Elrich所说的变化就越高。

但请记住，你需要一些体面的训练才能真正拥有一个表现良好的神经网络。当Elrich说话时，加上开发的时间和精力可能会超过你花时间寻找零件的时间。所以看看一些API：

This看起来像你可能想要使用的东西。 你应该谷歌演讲者识别，你就能找到你需要的东西。