我正在寻找能够在用户发言时返回中间结果的语音识别API,类似于Google在其主页上所做的那样(https://www.google.com)。我正在寻找支持法语的API。我想要做的是创建一个与Google人声搜索类似的Web应用程序。
答案 0 :(得分:2)
Cortana和Skype Translator使用的Microsoft Project Oxford Speech Recognition API符合您的两个标准:它支持法语(和其他6种语言),并在您向其传输音频时返回部分/临时/在线假设。
(顺便说一下,在使用Pocketsphinx进行在线识别时导致严重准确性的常见问题是错误的CMN(倒谱均值归一化)。当你给pocketphinx一个完整的音频处理时,它会在整个话语上计算CMN,但是当你向它传输音频时,它默认不会计算CMN。一种解决方案是给它一个完整的话语,检索由pocketsphinx计算的CMN,然后将那个CMN用于流音频。注意每个音频的CMN是不同的通道/环境,并且pocketphinx的Python接口不提供CMN数据的接口。如果这是您想要调查的路线,我有一个补丁。)
答案 1 :(得分:1)
许多语音到文本应用程序使用Nuance Communications开发的语音识别技术。适用于Web应用程序的SDK是Server SDK,它支持将流式音频转换为文本。除英语和德语外,它还支持法语。要使用它,您可能需要通过AJAX请求将音频输入流式传输到将要处理它的服务器,然后从AJAX请求接受文本作为XMLHTTPResponse。