应用错误收集

时间：2016-07-15 20:19:14

标签： speech-recognition speech-to-text bing microsoft-cognitive

我正在制作一个应用程序，让用户讲一个简短的故事（1-2分钟）并将其转录为文本。

我使用MediaCapture流式传输并将带有分块传输编码的录制语音发送到Bing Speech API。一切都很有效，除了一个问题：如果用户暂停了几秒钟，并且在暂停被识别后继续说话，那么他就说话了。

我尝试使用录制的wav文件进行相同操作，以确保分块传输不是此问题的根源。但它产生了同样的行为。所以转移是正确的，我得到了有效的回复，但仅限于记录的第一部分。

有人遇到同样的问题吗？这是设计，如果是这样的话：有没有解决这种问题的方法？

答案 0 :(得分：0)

您可能想要使用SDK。它更适合像听写这样的长形式场景。在休息API中关闭连接之前只有几秒钟的等待，但SDK的时间更长。