使用CMU的sphinx4转录非数字数据

时间:2011-08-11 12:03:50

标签: speech-recognition sphinx4 cmusphinx transcription

我最近正致力于使用CMU的sphinx4进行转录并最终强制对齐,即将音频与其成绩单对齐。

我找到了一个名为AutoCap的项目,它基本上完成了我想要开发的项目。所以,我安装了它,但它没有用。我试过调整它,但我获得的只是不正确的时间戳。

所以,我想过使用sphinx4并自己试一试。我使用Sphinx的Transcriber.jar文件成功转录了一个wav文件。 但我无法使用非数字数据的音频。 readme页面说明了这一点 '想要转录非数字数据的人应修改config.xml文件,以使用正确的语法,语言模型和语言专家来执行此操作'

所以,任何人都可以为我提供一些帮助:

  • AutoCap
  • 使用Sphinx4转录非数字数据
  • 强制对齐

感谢。

2 个答案:

答案 0 :(得分:2)

有一个专门针对文本对齐的语音项目。这不是一项微不足道的任务。开发进入一个单独的sphinx4分支。你可以在这里找到一些细节

http://cmusphinx.sourceforge.net/?s=long+audio+alignment

如果您对此项目有任何疑问,欢迎您在sphinx4论坛上提问

http://sourceforge.net/projects/cmusphinx/forums/forum/382337

答案 1 :(得分:0)

我目前正在处理同样的问题,即转录非数字数据。我简要介绍了sphinx 4程序员指南文档,并按照建议使用了语言模型,声学模型和JSGF语法。但是得到的答复没达到标准。我认为仅仅调整config.xml中的参数或更改是不够的。我认为我们需要一个本土算法与sphinx 4一起使用,它可以执行更好的语音识别。从我这边..我使用了lextreeliguist,JSGFGrammar和trigram语言模型。但反应并不好。也许是因为音频输入并不完全是美国英语。将会更多地工作..并让你知道我的结果