这是我在使用Google语音转文本引擎时遇到的问题。我目前正在以32kB块的形式实时传输16位/ 16 kHz音频。但是在发送音频和接收成绩单之间平均有25秒的延迟,这无法实现实时转录的目的。
为什么会有这么高的延迟?
答案 0 :(得分:2)
Google语音转文本documentation建议使用100毫秒的帧大小以最大程度地减少延迟。
32kB *(8位/ 1字节)*(1个样本/ 16位)*(1秒/ 16000个样本)= 1秒。
因此,请尝试发送3.2kB的块。这样将平均延迟时间从25s降低到了4s。