Google Speech API的SingleUtterance
如何工作?根据文档,这是Google确定讲话者何时讲一种话的方式。我了解它的作用,但我想知道如何做? API是否仅等待一定时间的“无声”音频?如果是这样,无声音频持续多长时间将触发语音结束?
它是否还有其他AI算法可以帮助确定某人何时停止说话?
谢谢
答案 0 :(得分:0)
我认为细节不会泄露,我认为音频结束的检测是API的决定。取而代之的是,它提供了识别何时做出此类决定的方法。
在正常情况下,流将继续监听和处理音频,直到the stream is closed directly, or the stream's limit length has been exceeded为止。在这种情况下,不需要设置single_utterance。
当您需要它(例如,语音命令)并设置single_utterance = true时,API决定何时结束识别并将END_OF_SINGLE_UTTERANCE event发送给您的客户端并停止识别。