如何从音频输入中识别多个扬声器及其文本?

时间:2017-01-31 13:39:42

标签: speech-recognition ibm-watson microsoft-cognitive google-speech-api dialogflow

我正在使用微软的认知服务。我有一个音频输入,需要识别多个扬声器及其单独的文本。

根据我的理解,Speaker Rekognition API可以识别不同的个人,Bing Speech API可以将语音转换为文本。但是,要同时执行这两项操作,我需要手动将音频文件拆分为多个部分(基于暂停/静音),然后将音频流发送到各个服务。有没有更好的方法呢?我应该改用的其他生态系统如AWS Lex / Polly或Google的产品吗?

1 个答案:

答案 0 :(得分:6)

您应该尝试使用IBM Watson Speech to Text API。它们有一个名为Speaker Diarization的功能,对您的用例非常有用。

此处有更多详情: https://www.ibm.com/blogs/watson/2016/12/look-whos-talking-ibm-debuts-watson-speech-text-speaker-diarization-beta/