通过语音识别从预先存在的记录中生成字幕

时间:2012-07-01 01:05:20

标签: language-agnostic voice-recognition speech-to-text transcription

假设我有该音频的音频和明文抄本,我如何使用语音识别以编程方式从两者中生成字幕?

这与YouTube在编辑视频时在字幕/翻译字幕页面上提供的内容非常相似。

有哪些API可以执行此操作?它有哪些挑战?

我最熟悉Java / C#,但这与语言无关。

1 个答案:

答案 0 :(得分:3)

这称为时间戳或对齐。 CMUSphinx项目项目有一个特定的工具。你可以从颠覆中查看。

http://cmusphinx.svn.sourceforge.net/viewvc/cmusphinx/branches/long-audio-aligner/

有关使用方法的一些信息,请参阅

http://cmusphinx.sourceforge.net/?s=long+audio+aligner