服务识别文字,直到我暂停,

时间:2016-07-15 20:19:14

标签: speech-recognition speech-to-text bing microsoft-cognitive

我正在制作一个应用程序,让用户讲一个简短的故事(1-2分钟)并将其转录为文本。

我使用MediaCapture流式传输并将带有分块传输编码的录制语音发送到Bing Speech API。一切都很有效,除了一个问题:如果用户暂停了几秒钟,并且在暂停被识别后继续说话,那么他就说话了。

我尝试使用录制的wav文件进行相同操作,以确保分块传输不是此问题的根源。但它产生了同样的行为。所以转移是正确的,我得到了有效的回复,但仅限于记录的第一部分。

有人遇到同样的问题吗?这是设计,如果是这样的话:有没有解决这种问题的方法?

1 个答案:

答案 0 :(得分:0)

您可能想要使用SDK。它更适合像听写这样的长形式场景。在休息API中关闭连接之前只有几秒钟的等待,但SDK的时间更长。