应用错误收集

除了谷歌还有任何语音识别API可以返回中期结果吗？

时间：2015-09-30 20:53:26

标签： speech-recognition speech-to-text cmusphinx ibm-watson google-speech-api

我正在寻找能够在用户发言时返回中间结果的语音识别API，类似于Google在其主页上所做的那样（https://www.google.com）。我正在寻找支持法语的API。我想要做的是创建一个与Google人声搜索类似的Web应用程序。

不建议将Google Speech API用于专业开发，因为它经常更改，并且没有完整记录。
IBM Watson不支持法语
AT＆amp; T Speech API不会返回中期结果
CMU Sphinx返回非常糟糕的结果（请参阅此处的演示：http://syl22-00.github.io/pocketsphinx.js/live-demo.html）
Nuance产品似乎不适用于Web应用程序。（如果你知道我该怎么做才能使用它们，我很感兴趣！）

2 个答案:

答案 0 :(得分：2)

Cortana和Skype Translator使用的Microsoft Project Oxford Speech Recognition API符合您的两个标准：它支持法语（和其他6种语言），并在您向其传输音频时返回部分/临时/在线假设。

（顺便说一下，在使用Pocketsphinx进行在线识别时导致严重准确性的常见问题是错误的CMN（倒谱均值归一化）。当你给pocketphinx一个完整的音频处理时，它会在整个话语上计算CMN，但是当你向它传输音频时，它默认不会计算CMN。一种解决方案是给它一个完整的话语，检索由pocketsphinx计算的CMN，然后将那个CMN用于流音频。注意每个音频的CMN是不同的通道/环境，并且pocketphinx的Python接口不提供CMN数据的接口。如果这是您想要调查的路线，我有一个补丁。）

答案 1 :(得分：1)

许多语音到文本应用程序使用Nuance Communications开发的语音识别技术。适用于Web应用程序的SDK是Server SDK，它支持将流式音频转换为文本。除英语和德语外，它还支持法语。要使用它，您可能需要通过AJAX请求将音频输入流式传输到将要处理它的服务器，然后从AJAX请求接受文本作为XMLHTTPResponse。