是否可以将实时数据发送到微软认知说话人识别?

时间:2017-06-14 13:11:37

标签: python microsoft-cognitive

我正在编写一个应该接收音频并将其发送到Speaker Recognition API以获取文本的应用程序。我使用了服务库,它可以使用wav文件。所以我编写了自己的流来接收来自麦克风或网络(RTP)的音频,并将其发送到识别API。当我在音频流前添加一个WAV标题时,它可以工作几秒钟。

调试显示,识别api读取表单流的速度比音频源填充的速度快(16k采样率,16位,单声道)。

所以我的问题是:有没有办法将识别api用于实时(连续)音频流?

我知道有一个麦克风客户端的示例,但它只适用于麦克风,我需要它用于不同的来源

0 个答案:

没有答案