使用CMU Shinx,JSAPI和Google Speech API进行语音识别

时间:2011-12-29 06:37:37

标签: speech-recognition speech-to-text cmusphinx sphinx4

语音识别是我当前项目的众多功能之一,很可能是在J2EE中开发的(如果他们的选择合理,其他语言也会受到欢迎)。

googleSO上的大多数链接都提出了上面提到的三个选项,Sphinx 4,直接JSAPI和Google Speech API(向Google发送服务器调用,而不是将结果作为文本获取) )。

对我来说,其他免费提供的选项有哪些?如果我使用Sphinx-4,我如何获得通用英语的语言模型?

2 个答案:

答案 0 :(得分:3)

是的,有。

  1. 可以使用基本代码行的Google语音识别器包装器。您以FLAC或SPEEX格式发送语音音频,并获得识别和置信度分数。唯一的问题是谷歌可以像谷歌翻译一样关闭API。
  2. 其他选择是使用Sphinx(Sphinx4或Pocketsphinx)。
  3. 可以使用HTK(http://htk.eng.cam.ac.uk/)并使用HVite(HTK解码器)或其他类似Julius(http://julius.sourceforge.jp/en/) 。还有其他选项可以使用HTK来训练声学模型和/或语言和语法。
  4. Voxforge拥有HTK和Sphinx的声学和语言模型(http://voxforge.org/)。

答案 1 :(得分:2)

  

如果我使用Sphinx-4,我如何获得通用英语的语言模型?

您可以从CMUSphinx网站和其他地方下载它们。你也可以自己构建它们。其中一个可能的位置是

http://www.keithv.com/software/csr/