假设我有该音频的音频和明文抄本,我如何使用语音识别以编程方式从两者中生成字幕?
这与YouTube在编辑视频时在字幕/翻译字幕页面上提供的内容非常相似。
有哪些API可以执行此操作?它有哪些挑战?
我最熟悉Java / C#,但这与语言无关。
答案 0 :(得分:3)
这称为时间戳或对齐。 CMUSphinx项目项目有一个特定的工具。你可以从颠覆中查看。
http://cmusphinx.svn.sourceforge.net/viewvc/cmusphinx/branches/long-audio-aligner/
有关使用方法的一些信息,请参阅