应用错误收集

通过语音识别从预先存在的记录中生成字幕

时间：2012-07-01 01:05:20

标签： language-agnostic voice-recognition speech-to-text transcription

假设我有该音频的音频和明文抄本，我如何使用语音识别以编程方式从两者中生成字幕？

这与YouTube在编辑视频时在字幕/翻译字幕页面上提供的内容非常相似。

有哪些API可以执行此操作？它有哪些挑战？

我最熟悉Java / C＃，但这与语言无关。

1 个答案:

答案 0 :(得分：3)

这称为时间戳或对齐。 CMUSphinx项目项目有一个特定的工具。你可以从颠覆中查看。

http://cmusphinx.svn.sourceforge.net/viewvc/cmusphinx/branches/long-audio-aligner/

有关使用方法的一些信息，请参阅

http://cmusphinx.sourceforge.net/?s=long+audio+aligner