我正在尝试实现实时转录,其中浏览器接收音频输入并将其发送给服务器,然后服务器将其发送到google API接口进行转录。
我研究了用于浏览器音频输入的两个API,Mediastream API和MediaRecorder API。此外,我正在使用谷歌语音文本流请求api来实现这一点。我尝试了两种方法:
我使用getusermedia获得了我的Mediastream对象。我使用websocket将其通过管道传输到服务器。但是,我似乎无法将其传递给Google语音文本API。
然后,我在getusermedia之上使用mediarecorder,并使用websocket将1秒的blob发送到服务器。但是,无法将blob通过管道传递到Google语音中的text api。
所以,我的问题是如何从浏览器获取音频输入,将其发送到我的服务器,然后再发送到Google语音到文本api接口?