我正在制作一个应用程序,让用户讲一个简短的故事(1-2分钟)并将其转录为文本。
我使用MediaCapture流式传输并将带有分块传输编码的录制语音发送到Bing Speech API。一切都很有效,除了一个问题:如果用户暂停了几秒钟,并且在暂停被识别后继续说话,那么他就说话了。
我尝试使用录制的wav文件进行相同操作,以确保分块传输不是此问题的根源。但它产生了同样的行为。所以转移是正确的,我得到了有效的回复,但仅限于记录的第一部分。
有人遇到同样的问题吗?这是设计,如果是这样的话:有没有解决这种问题的方法?